Omnihuman(デジタル人間がタスクを提出する )
ユーザーがアップロードした単一画像と音声から、その画像に対応する動画効果を生成します。OmniHumanデジタルヒューマンモデルは、任意のアスペクト比で人物が含まれる画像を入力として受け付け、音声と組み合わせて、臨場感のある高品質な動画を生成します。人物の感情や動きは音声と強く関連しています。また、本モデルはアニメやカートゥーンなどのキャラクターにも一定の汎化性を持ち、コンテンツ表現、歌唱、演技など幅広いシーンで活用できます。
価格:0.15PTC/秒
Request
Body Params application/json
{
"image_url":"https://file.302.ai/gpt/imgs/20250731/1ead841266e9499ba6bf1ffcbc9c02cd.png",
"audio_url": "https://file.302ai.cn/gpt/imgs/20250731/7ea29b034c154b3587872a9cc908582f.mp3"
}
Request Code Samples
curl --location --request POST 'https://api.302.ai/doubao/omnihuman/video' \
--header 'Authorization: Bearer sk-mfYQzy0XTFfz4P16vRE4gFrKK1Nly4TozsMqbbb9PSiJUvFO' \
--header 'Content-Type: application/json' \
--data-raw '{
"image_url":"https://file.302.ai/gpt/imgs/20250731/1ead841266e9499ba6bf1ffcbc9c02cd.png",
"audio_url": "https://file.302ai.cn/gpt/imgs/20250731/7ea29b034c154b3587872a9cc908582f.mp3"
}'
Responses
application/json {
"code": 10000,
"data": {
"task_id": "5361805649410983027"
},
"message": "Success",
"request_id": "202507311619023CCB209944B1798D0896",
"status": 10000,
"time_elapsed": "1.517715703s"
}
Modified at 2025-08-01 08:11:47