Zum Hauptinhalt springen
POST
/
kling
/
v1
/
videos
/
advanced-lip-sync
Create an advanced Kling lip-sync task
curl --request POST \
  --url https://api.cometapi.com/kling/v1/videos/advanced-lip-sync \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "session_id": "806556222048190514",
  "face_choose": [
    {
      "face_id": "0",
      "sound_file": "https://cdn1.suno.ai/e5c97078-3260-4354-a3a6-1d7249262a48.mp3",
      "sound_start_time": "1200",
      "sound_end_time": "5000",
      "sound_insert_time": "0"
    }
  ]
}
'
{
  "code": 123,
  "message": "<string>",
  "data": {
    "task_id": "<string>",
    "task_status": "<string>",
    "created_at": 123,
    "updated_at": 123
  }
}
Verwenden Sie diesen Endpoint, um eine erweiterte Lip-Sync-Task zu erstellen, nachdem Sie bereits Gesichter im Quellvideo identifiziert haben.

Bevor Sie ihn aufrufen

  • Beginnen Sie mit Lip-Sync, um die session_id und die verfügbaren face_id-Werte zu erhalten
  • Erstellen Sie einen oder mehrere face_choose-Einträge, die jedes Gesicht einem Audiosegment zuordnen
  • Stellen Sie sicher, dass die Zeitfelder beschreiben, wie das Audio im Video ausgerichtet werden soll

Task-Ablauf

1

Zuerst Gesichter identifizieren

Führen Sie Lip-Sync für das Quellvideo aus und behalten Sie die zurückgegebene session_id sowie die Ziel-face_id-Werte.
2

Die erweiterte Lip-Sync-Task erstellen

Übermitteln Sie session_id und das Array face_choose über diesen Endpoint.
3

Die generierte Task verfolgen

Speichern Sie die zurückgegebene Task-ID für Statusprüfungen und den Abruf des Endergebnisses.
Die vollständige Parameterreferenz finden Sie in der offiziellen Kling-Dokumentation.

Autorisierungen

Authorization
string
header
erforderlich

Bearer token authentication. Use your CometAPI key.

Body

application/json
session_id
string
Standard:806556222048190514
erforderlich

Session id returned by the face identification (lip-sync) endpoint.

face_choose
object[]
erforderlich

Face-to-audio mappings. Each entry connects a detected face to an audio segment for lip-sync.

Antwort

200 - application/json

Task accepted.

code
integer
erforderlich
message
string
erforderlich
data
object
erforderlich