アバター
CometAPI の Kling Avatar API を使用して、画像からアバター主導の動画を生成します。高速な image-to-video アバターには POST /kling/v1/videos/avatar/image2video を使用します。
このエンドポイントを使用すると、1 枚の元画像と 1 つの音声ソースから、話すアバター動画クリップを作成できます。Documentation Index
Fetch the complete documentation index at: https://apidoc.cometapi.com/llms.txt
Use this file to discover all available pages before exploring further.
呼び出す前に
- 1 つのアバター
imageを公開 URL または生の base64 文字列で指定します audio_idまたはsound_fileのいずれか一方のみを送信します- 最初のリクエストはシンプルにしてください: 顔画像 1 枚、音声クリップ 1 つ、必要に応じて短いプロンプト(Prompt)
- 特別に高品質な経路が必要でない限り、
mode: stdから始めてください
音声ソースのルール
audio_idは、すでに Kling の TTS ルートで音声を生成している場合に最も簡単な方法ですsound_fileは、すでに独自の MP3、WAV、M4A、または AAC アセットを持っている場合に使えます- アバター用音声の長さは 2〜60 秒とされています
タスクフロー
タスクをポーリング
承認
Bearer token authentication. Use your CometAPI key.
ヘッダー
Optional content type header.
ボディ
- Option 1
- Option 2
Avatar reference image. Accepts an image URL or raw Base64 string (no data: prefix). Supported formats: JPG, JPEG, PNG. Max file size 10 MB. Minimum dimension 300 px on each side; aspect ratio between 1:2.5 and 2.5:1.
Audio ID returned by the Kling TTS API. Only audio clips between 2 and 60 seconds generated within the last 30 days are accepted. Mutually exclusive with sound_file — exactly one must be provided.
Text prompt to guide avatar actions, emotions, and camera movements. Max 2500 characters. Required — the API rejects requests without this field.
Audio file as a URL or Base64 string. Accepted formats: MP3, WAV, M4A, AAC. Max 5 MB, duration 2–60 seconds. Mutually exclusive with audio_id — exactly one must be provided.
Generation mode. std (standard, faster and more cost-effective) or pro (professional, higher quality output).
Webhook URL for task status notifications. The server sends a callback when the task status changes.
Optional user-defined task ID for your own tracking. Does not replace the system-generated task ID. Must be unique per account.