Passer au contenu principal
POST
/
kling
/
v1
/
videos
/
avatar
/
image2video
Create a Kling avatar task
curl --request POST \
  --url https://api.cometapi.com/kling/v1/videos/avatar/image2video \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "image": "example"
}
'
{
  "code": 123,
  "message": "<string>",
  "data": {
    "task_id": "<string>",
    "task_status": "<string>",
    "created_at": 123,
    "updated_at": 123,
    "task_info": {}
  }
}
Utilisez ce endpoint pour créer des clips d’avatar parlant à partir d’une image source et d’une source audio.

Avant de l’appeler

  • Fournissez une image d’avatar sous forme d’URL publique ou de chaîne base64 brute
  • Envoyez exactement un seul de audio_id ou sound_file
  • Gardez la première requête simple : une image de visage, un clip audio et un court prompt facultatif
  • Commencez avec mode: std sauf si vous avez spécifiquement besoin du mode de qualité supérieure

Règles pour la source audio

  • audio_id est la voie la plus simple si vous avez déjà généré la parole via la route Kling TTS
  • sound_file fonctionne si vous disposez déjà de votre propre ressource MP3, WAV, M4A ou AAC
  • La durée de l’audio de l’avatar est documentée entre 2 et 60 secondes

Flux de la tâche

1

Créer la tâche avatar

Soumettez l’image et une source audio, puis enregistrez l’id de tâche renvoyé.
2

Interroger la tâche

Continuez avec Requêtes individuelles jusqu’à ce que la tâche atteigne un état terminal.
3

Stocker le résultat final

Copiez la ressource finale dans votre propre stockage si vous avez besoin d’une conservation au-delà de l’URL de livraison du fournisseur.
Pour la référence complète des paramètres, consultez la documentation officielle de Kling Avatar.

Autorisations

Authorization
string
header
requis

Bearer token authentication. Use your CometAPI key.

En-têtes

Content-Type
string

Optional content type header.

Corps

application/json
image
string
défaut:example
requis

Avatar reference image. Accepts an image URL or raw Base64 string (no data: prefix). Supported formats: JPG, JPEG, PNG. Max file size 10 MB. Minimum dimension 300 px on each side; aspect ratio between 1:2.5 and 2.5:1.

audio_id
string
requis

Audio ID returned by the Kling TTS API. Only audio clips between 2 and 60 seconds generated within the last 30 days are accepted. Mutually exclusive with sound_file — exactly one must be provided.

sound_file
string

Audio file as a URL or Base64 string. Accepted formats: MP3, WAV, M4A, AAC. Max 5 MB, duration 2–60 seconds. Mutually exclusive with audio_id — exactly one must be provided.

prompt
string

Text prompt to guide avatar actions, emotions, and camera movements. Max 2500 characters.

mode
string

Generation mode. std (standard, faster and more cost-effective) or pro (professional, higher quality output).

callback_url
string

Webhook URL for task status notifications. The server sends a callback when the task status changes.

external_task_id
string

Optional user-defined task ID for your own tracking. Does not replace the system-generated task ID. Must be unique per account.

Réponse

200 - application/json

Task accepted.

code
integer
requis
message
string
requis
data
object
requis