機能紹介

音声を入力すると、元の音声の音色に基づいて、別の言語に翻訳された音声を生成します。

処理フローの説明

🔄 全体的な処理フロー

plaintext
入力オーディオ → 音声認識(STT) → テキスト翻訳 → 音色クローン → 音声合成(TTS) → 出力オーディオ
システムはオーディオからオーディオへのエンドツーエンドの翻訳を自動的に実行し、元のまたは指定された音色の特徴を保持します。

処理手順の詳細

📋 5 つのコア手順

1️⃣ 初期化（initialization）

オーディオファイルをダウンロードして準備する
クローンするオーディオを自動的に 30 秒以内にカットする

2️⃣ 音声認識（speech_to_text）

OpenAI gpt-4o-transcribe を使用してオーディオをテキストに変換する

3️⃣ 翻訳（translation）

ユーザーが LLM モデルを選択可能（デフォルトでは claude-haiku-4-5-20251001 モデルを使用）し、インテリジェント翻訳を行う

4️⃣ 音色クローン（voice_clone）

オーディオの特徴を分析して抽出する

5️⃣ 音声合成（text_to_speech）

クローンした音色を使用して対象言語のオーディオを生成する
高品質のオーディオファイルを出力する
サプライヤー選択ロジック

🎯 自動選択ルール
システムは対象言語に基づいて最適な音色クローンサプライヤーを自動的に選択します：

サプライヤー	サポート言語	自動選択条件
Fish	すべての言語	非英語・中国語のシーンではデフォルトで使用されます
index_tts2	中国語、英語	中英互訳を優先的に選択する
soulx	中国語、英語	ユーザーが手動で指定する場合に使用されます
f5	中国語、英語	ユーザーが手動で指定する場合に使用されます
voxcpm	中国語、英語	ユーザーが手動で指定する場合に使用されます

優先順位の選択

ユーザー指定：サプライヤーが指定され、対象言語をサポートしている場合は、優先的に使用します

言語の一致：中英語は優先的に index_tts2 を使用し、その他の言語は Fish を使用します

⚠️ 注意事項

オーディオのクローンは、推奨される長さが 10-30 秒です。長すぎる場合は自動的にカットされます

最適な効果を得るには、オーディオは明瞭でノイズがない必要があります

サポートされている形式：mp3、wav

Request

Header Params

Body Params application/jsonRequired

Example

{
  "audio_file_url": "https://file.302ai.cn/gpt/imgs/20251113/8c68d17098dde0e2dd8bb3e8407a898b.mp3",
  "clone_audio_file_url": "",
  "target_language": "zh",
  "source_language": "",
  "voice_clone_provider": "fish"
}

Request Code Samples

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

application/json

Body

Example

{
    "task_id": "25691459-2665-41e1-86fe-2d37d48a95c1",
    "status": "pending",
    "message": "任务已创建并开始处理"
}

音声翻訳タスクを作成する

機能紹介

処理フローの説明

🔄 全体的な処理フロー

処理手順の詳細

📋 5 つのコア手順

1️⃣ 初期化（initialization）

2️⃣ 音声認識（speech_to_text）

3️⃣ 翻訳（translation）

4️⃣ 音色クローン（voice_clone）

5️⃣ 音声合成（text_to_speech）

優先順位の選択

⚠️ 注意事項

Request

Request Code Samples

Responses

音声翻訳タスクを作成する

機能紹介#

処理フローの説明#

🔄 全体的な処理フロー#

処理手順の詳細#

📋 5 つのコア手順#

1️⃣ 初期化（initialization）#

2️⃣ 音声認識（speech_to_text）#

3️⃣ 翻訳（translation）#

4️⃣ 音色クローン（voice_clone）#

5️⃣ 音声合成（text_to_speech）#

優先順位の選択#

⚠️ 注意事項#

Request

Request Code Samples

Responses

機能紹介

処理フローの説明

🔄 全体的な処理フロー

処理手順の詳細

📋 5 つのコア手順

1️⃣ 初期化（initialization）

2️⃣ 音声認識（speech_to_text）

3️⃣ 翻訳（translation）

4️⃣ 音色クローン（voice_clone）

5️⃣ 音声合成（text_to_speech）

優先順位の選択

⚠️ 注意事項