Chat Completions
استخدم CometAPI POST /v1/chat/completions لإرسال محادثات متعددة الرسائل والحصول على ردود LLM مع عناصر تحكم في Streaming وtemperature وmax_tokens.
يقوم CometAPI بتوجيه Chat Completions إلى عدة مزودين — بما في ذلك OpenAI وClaude وGemini — من خلال واجهة واحدة متوافقة مع OpenAI. يمكنك التبديل بين النماذج عبر تغيير المعاملDocumentation Index
Fetch the complete documentation index at: https://apidoc.cometapi.com/llms.txt
Use this file to discover all available pages before exploring further.
model؛ وتعمل معظم حِزم SDK المتوافقة مع OpenAI عند ضبط base_url على https://api.cometapi.com/v1.
أدوار الرسائل
| Role | Description |
|---|---|
system | يحدد سلوك المساعد وشخصيته. يوضع في بداية المحادثة. |
developer | يستبدل system للنماذج الأحدث (o1+). يوفّر تعليمات يجب على النموذج اتباعها بغض النظر عن مدخلات المستخدم. |
user | رسائل من المستخدم النهائي. |
assistant | ردود النموذج السابقة، وتُستخدم للحفاظ على سجل المحادثة. |
tool | نتائج استدعاءات الأداة/الدالة. يجب أن تتضمن tool_call_id المطابق لاستدعاء الأداة الأصلي. |
إرسال إدخال Multimodal
تدعم العديد من النماذج الصور والصوت إلى جانب النص. لإرسال رسائل متعددة الوسائط، استخدم تنسيق المصفوفة لـcontent:
detail في عمق تحليل الصورة:
low— أسرع، ويستخدم Tokens أقل (بتكلفة ثابتة)high— تحليل مفصل، مع استهلاك عدد أكبر من Tokensauto— يقرر النموذج (الافتراضي)
بث Responses
لتلقي المخرجات بشكل تدريجي، اضبطstream على true. يتم تسليم الاستجابة على هيئة Server-Sent Events (SSE)، حيث يحتوي كل حدث على كائن chat.completion.chunk:
طلب مخرجات منظّمة
لإجبار النموذج على إرجاع JSON صالح يطابق schema محددًا، استخدمresponse_format:
json_schema) أن يطابق الناتج schema الخاص بك تمامًا. أما وضع JSON Object (json_object) فيضمن فقط JSON صالحًا — ولا يفرض البنية.استدعاء الأدوات والدوال
لتمكين النموذج من استدعاء دوال خارجية، وفّر تعريفات الأدوات:finish_reason: "tool_calls" وستحتوي المصفوفة message.tool_calls على اسم الدالة والوسائط. بعد ذلك تنفّذ الدالة وترسل النتيجة مرة أخرى كرسالة tool مع tool_call_id المطابق.
ملاحظات عبر المزوّدين
دعم المعاملات عبر المزوّدين
دعم المعاملات عبر المزوّدين
| Parameter | OpenAI GPT | Claude (via compat) | Gemini (via compat) |
|---|---|---|---|
temperature | 0–2 | 0–1 | 0–2 |
top_p | 0–1 | 0–1 | 0–1 |
n | 1–128 | 1 فقط | 1–8 |
stop | حتى 4 | حتى 4 | حتى 5 |
tools | ✅ | ✅ | ✅ |
response_format | ✅ | ✅ (json_schema) | ✅ |
logprobs | ✅ | ❌ | ❌ |
reasoning_effort | o-series, GPT-5.1+ | ❌ | ❌ (استخدم thinking لـ Gemini native) |
max_tokens مقابل max_completion_tokens
max_tokens مقابل max_completion_tokens
max_tokens— المعامل القديم. يعمل مع معظم النماذج لكنه مهمل في نماذج OpenAI الأحدث.max_completion_tokens— المعامل الموصى به لنماذج GPT-4.1 وGPT-5 series ونماذج o-series. وهو مطلوب لنماذج reasoning لأنه يتضمن كلًا من output tokens وreasoning tokens.
دور system مقابل developer
دور system مقابل developer
system— دور التعليمات التقليدي. يعمل مع جميع النماذج.developer— قُدّم مع نماذج o1. ويوفر اتباعًا أقوى للتعليمات في النماذج الأحدث. ويعود إلى سلوكsystemفي النماذج الأقدم.
developer في المشاريع الجديدة التي تستهدف نماذج GPT-4.1+ أو o-series.الأسئلة الشائعة
كيفية التعامل مع حدود المعدل؟
عند مواجهة429 Too Many Requests، نفّذ exponential backoff:
كيفية الحفاظ على سياق المحادثة؟
قم بتضمين سجل المحادثة الكامل في المصفوفةmessages:
ماذا يعني finish_reason؟
| القيمة | المعنى |
|---|---|
stop | اكتمال طبيعي أو الوصول إلى تسلسل إيقاف. |
length | تم الوصول إلى حد max_tokens أو max_completion_tokens. |
tool_calls | استدعى model استدعاء أداة/دالة واحدًا أو أكثر. |
content_filter | تمت تصفية المخرجات بسبب سياسة المحتوى. |
كيفية التحكم في التكاليف؟
- استخدم
max_completion_tokensلوضع حد لطول المخرجات. - اختر نماذج فعّالة من حيث التكلفة (مثل
gpt-5.4-miniأوgpt-5.4-nanoللمهام الأبسط). - اجعل Prompts موجزة — وتجنّب السياق المكرر.
- راقب استخدام Token في الحقل
usageضمن الاستجابة.
التفويضات
Bearer token authentication. Use your CometAPI key.
الجسم
Model ID to use for this request. See the Models page for current options.
"gpt-4.1"
A list of messages forming the conversation. Each message has a role (system, user, assistant, or developer) and content (text string or multimodal content array).
If true, partial response tokens are delivered incrementally via server-sent events (SSE). The stream ends with a data: [DONE] message.
Sampling temperature between 0 and 2. Higher values (e.g., 0.8) produce more random output; lower values (e.g., 0.2) make output more focused and deterministic. Recommended to adjust this or top_p, but not both.
0 <= x <= 2Nucleus sampling parameter. The model considers only the tokens whose cumulative probability reaches top_p. For example, 0.1 means only the top 10% probability tokens are considered. Recommended to adjust this or temperature, but not both.
0 <= x <= 1Number of completion choices to generate for each input message. Defaults to 1.
Up to 4 sequences where the API will stop generating further tokens. Can be a string or an array of strings.
Maximum number of tokens to generate in the completion. The total of input + output tokens is capped by the model's context length.
Number between -2.0 and 2.0. Positive values penalize tokens based on whether they have already appeared, encouraging the model to explore new topics.
-2 <= x <= 2Number between -2.0 and 2.0. Positive values penalize tokens proportionally to how often they have appeared, reducing verbatim repetition.
-2 <= x <= 2A JSON object mapping token IDs to bias values from -100 to 100. The bias is added to the model's logits before sampling. Values between -1 and 1 subtly adjust likelihood; -100 or 100 effectively ban or force selection of a token.
A unique identifier for your end-user. Helps with abuse detection and monitoring.
An upper bound for the number of tokens to generate, including visible output tokens and reasoning tokens. Use this instead of max_tokens for GPT-4.1+, GPT-5 series, and o-series models.
Specifies the output format. Use {"type": "json_object"} for JSON mode, or {"type": "json_schema", "json_schema": {...}} for strict structured output.
A list of tools the model may call. Currently supports function type tools.
Controls how the model selects tools. auto (default): model decides. none: no tools. required: must call a tool.
Whether to return log probabilities of the output tokens.
Number of most likely tokens to return at each position (0-20). Requires logprobs to be true.
0 <= x <= 20Controls the reasoning effort for o-series and GPT-5.1+ models.
low, medium, high Options for streaming. Only valid when stream is true.
Specifies the processing tier.
auto, default, flex, priority الاستجابة
Successful chat completion response.
Unique completion identifier.
"chatcmpl-abc123"
chat.completion "chat.completion"
Unix timestamp of creation.
1774412483
The model used (may include version suffix).
"gpt-5.4-2025-07-16"
Array of completion choices.
"default"
"fp_490a4ad033"