機能紹介#
音声を入力すると、元の音声の音色に基づいて、別の言語に翻訳された音声を生成します。処理フローの説明#
🔄 全体的な処理フロー#
plaintext
入力オーディオ → 音声認識(STT) → テキスト翻訳 → 音色クローン → 音声合成(TTS) → 出力オーディオ
システムはオーディオからオーディオへのエンドツーエンドの翻訳を自動的に実行し、元のまたは指定された音色の特徴を保持します。処理手順の詳細#
📋 5 つのコア手順#
1️⃣ 初期化(initialization)#
オーディオファイルをダウンロード して準備する
クローンするオーディオを自動的に 30 秒以内にカットする2️⃣ 音声認識(speech_to_text)#
OpenAI gpt-4o-transcribe を使用してオーディオをテキストに変換する3️⃣ 翻訳(translation)#
ユーザーが LLM モデルを選択可能(デフォルトでは claude-haiku-4-5-20251001 モデルを使用)し、インテリジェント翻訳を行う4️⃣ 音色クローン(voice_clone)#
5️⃣ 音声合成(text_to_speech)#
クローンした音色を使用して対象言語のオーディオを生成する
高品質のオーディオファイルを出力する
サプライヤー選択ロジック🎯 自動選択ルール
システムは対象言語に基づいて最適な音色クローンサプライヤーを自動的に選択します:| サプライヤー | サポート言語 | 自動選択条件 |
|---|
| Fish | すべての言語 | 非英語・中国語のシーンではデフォルトで使用されます |
| index_tts2 | 中国語、英語 | 中英互訳を優先的に選択する |
| soulx | 中国語、英語 | ユーザーが手動で指定する場合に使用されます |
| f5 | 中国語、英語 | ユーザーが手動で指定する場合に使用されます |
| voxcpm | 中国語、英語 | ユーザーが手動で指定する場合に使用されます |
優先順位の選択#
1.
ユーザー指定:サプライヤーが指定され、対象言語をサポートしている場合は、優先的に使用します
2.
言語の一致:中英語は優先的に index_tts2 を使用し、その他の言語は Fish を使用します
⚠️ 注意事項#
オーディオのクローンは、推奨される長さが 10-30 秒です。長すぎる場合は自動的にカットされます
最適な効果を得るには、オーディオは明瞭でノイズがない必要があります
Request
Body Params application/jsonRequired
{
"audio_file_url": "https://file.302ai.cn/gpt/imgs/20251113/8c68d17098dde0e2dd8bb3e8407a898b.mp3",
"clone_audio_file_url": "",
"target_language": "zh",
"source_language": "",
"voice_clone_provider": "fish"
}
Request Code Samples
curl --location --request POST 'https://api.302.ai/302/audio/translate/task' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
"audio_file_url": "https://file.302ai.cn/gpt/imgs/20251113/8c68d17098dde0e2dd8bb3e8407a898b.mp3",
"clone_audio_file_url": "",
"target_language": "zh",
"source_language": "",
"voice_clone_provider": "fish"
}'
Responses
application/json {
"task_id": "25691459-2665-41e1-86fe-2d37d48a95c1",
"status": "pending",
"message": "任务已创建并 开始处理"
}
Modified at 2025-11-21 02:37:19