الانتقال إلى المحتوى الرئيسي
POST
/
v1
/
audio
/
transcriptions
Python (OpenAI SDK)
import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["COMETAPI_KEY"],
    base_url="https://api.cometapi.com/v1"
)

audio_file = open("audio.mp3", "rb")
transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file
)
print(transcription.text)
{
  "text": "Hello, welcome to CometAPI."
}
استخدم نقطة النهاية هذه لتفريغ الصوت إلى نص بلغة المصدر. وهي مناسبة لملاحظات الاجتماعات، والرسائل الصوتية، وفهرسة الوسائط، والتسميات التوضيحية، وسير عمل الدعم التي تحتاج إلى نص قابل للبحث.

الطلب الأول

أرسل ملفًا صوتيًا مدعومًا مع model وfile. اجعل الملف الأول قصيرًا أثناء التحقق من معالجة الرفع، والمصادقة، وتحليل الاستجابة.

قراءة الاستجابة

تتضمن الاستجابة الافتراضية text الذي تم تفريغه. إذا طلبت تنسيق استجابة آخر، فتأكد من أن العميل لديك يحلل ذلك التنسيق بدلًا من افتراض بنية JSON الافتراضية.

الخطوات التالية

  • استخدم Create Speech عندما تحتاج إلى مخرجات تحويل النص إلى كلام.
  • استخدم Create Translation عندما يجب أن يكون الناتج المستهدف باللغة الإنجليزية.

التفويضات

Authorization
string
header
مطلوب

Bearer token authentication. Use your CometAPI key.

الجسم

multipart/form-data
file
file
مطلوب

The audio file to transcribe. Supported formats: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.

model
string
افتراضي:whisper-1
مطلوب

The speech-to-text model to use. Choose a current speech model from the Models page.

language
string

The language of the input audio in ISO-639-1 format (e.g., en, zh, ja). Supplying the language improves accuracy and latency.

prompt
string

Optional text to guide the model's style or continue a previous audio segment. The prompt should match the audio language.

response_format
enum<string>
افتراضي:json

The output format for the transcription.

الخيارات المتاحة:
json,
text,
srt,
verbose_json,
vtt
temperature
number
افتراضي:0

Sampling temperature between 0 and 1. Higher values produce more random output; lower values are more focused. When set to 0, the model auto-adjusts temperature using log probability.

النطاق المطلوب: 0 <= x <= 1

الاستجابة

200 - application/json

The transcription result.

text
string
مطلوب

The transcribed text.