Chat Completions
Verwenden Sie CometAPI POST /v1/chat/completions, um Unterhaltungen mit mehreren Nachrichten zu senden und LLM-Antworten mit Steuerung für Streaming, temperature und max_tokens zu erhalten.
CometAPI leitet Chat Completions über eine einzige OpenAI-kompatible Schnittstelle an mehrere Anbieter weiter — darunter OpenAI, Claude und Gemini. Wechseln Sie zwischen Modellen, indem Sie den ParameterDocumentation Index
Fetch the complete documentation index at: https://apidoc.cometapi.com/llms.txt
Use this file to discover all available pages before exploring further.
model ändern; die meisten OpenAI-kompatiblen SDKs funktionieren, wenn base_url auf https://api.cometapi.com/v1 gesetzt wird.
Nachrichtenrollen
| Role | Description |
|---|---|
system | Legt das Verhalten und die Persönlichkeit des Assistenten fest. Wird am Anfang der Unterhaltung platziert. |
developer | Ersetzt system für neuere Modelle (o1+). Stellt Anweisungen bereit, denen das Modell unabhängig von der Benutzereingabe folgen soll. |
user | Nachrichten vom Endbenutzer. |
assistant | Frühere Modellantworten, die verwendet werden, um den Unterhaltungsverlauf beizubehalten. |
tool | Ergebnisse aus Tool-/Function-Calling-Aufrufen. Muss tool_call_id enthalten, das dem ursprünglichen Tool-Aufruf entspricht. |
Multimodal input senden
Viele Modelle unterstützen Bilder und Audio neben Text. Um Multimodal-Nachrichten zu senden, verwenden Sie das Array-Format fürcontent:
detail steuert die Tiefe der Bildanalyse:
low— schneller, verwendet weniger Tokens (feste Kosten)high— detaillierte Analyse, mehr Tokens werden verbrauchtauto— das Modell entscheidet (Standard)
Responses streamen
Um inkrementelle Ausgaben zu erhalten, setzen Siestream auf true. Die Antwort wird als Server-Sent Events (SSE) übermittelt, wobei jedes Event ein Objekt vom Typ chat.completion.chunk enthält:
Strukturierte Ausgabe anfordern
Um das Modell zu zwingen, gültiges JSON zurückzugeben, das einem bestimmten Schema entspricht, verwenden Sieresponse_format:
json_schema) garantiert, dass die Ausgabe Ihrem Schema exakt entspricht. Der JSON Object-Modus (json_object) garantiert nur gültiges JSON — die Struktur wird nicht erzwungen.Tools und Funktionen aufrufen
Um dem Modell zu ermöglichen, externe Funktionen aufzurufen, stellen Sie Tool-Definitionen bereit:finish_reason: "tool_calls" und das Array message.tool_calls enthält den Funktionsnamen und die Argumente. Anschließend führen Sie die Funktion aus und senden das Ergebnis als tool-Nachricht mit der passenden tool_call_id zurück.
Anbieterübergreifende Hinweise
Parameterunterstützung bei verschiedenen Anbietern
Parameterunterstützung bei verschiedenen Anbietern
| Parameter | OpenAI GPT | Claude (via compat) | Gemini (via compat) |
|---|---|---|---|
temperature | 0–2 | 0–1 | 0–2 |
top_p | 0–1 | 0–1 | 0–1 |
n | 1–128 | nur 1 | 1–8 |
stop | Bis zu 4 | Bis zu 4 | Bis zu 5 |
tools | ✅ | ✅ | ✅ |
response_format | ✅ | ✅ (json_schema) | ✅ |
logprobs | ✅ | ❌ | ❌ |
reasoning_effort | o-series, GPT-5.1+ | ❌ | ❌ (verwenden Sie thinking für Gemini nativ) |
max_tokens vs max_completion_tokens
max_tokens vs max_completion_tokens
max_tokens— Der alte Parameter. Funktioniert mit den meisten Modellen, ist für neuere OpenAI-Modelle jedoch veraltet.max_completion_tokens— Der empfohlene Parameter für GPT-4.1-, GPT-5-series- und o-series-Modelle. Erforderlich für reasoning-Modelle, da er sowohl output tokens als auch reasoning tokens umfasst.
system vs developer role
system vs developer role
system— Die traditionelle Anweisungsrolle. Funktioniert mit allen Modellen.developer— Eingeführt mit o1-Modellen. Bietet bei neueren Modellen eine stärkere Befolgung von Anweisungen. Fällt bei älteren Modellen auf das Verhalten vonsystemzurück.
developer für neue Projekte, die auf GPT-4.1+ oder o-series-Modelle abzielen.FAQ
Wie geht man mit Rate Limits um?
Wenn429 Too Many Requests auftritt, implementieren Sie exponentielles Backoff:
Wie hält man den Unterhaltungskontext aufrecht?
Schließen Sie den vollständigen Gesprächsverlauf in das Arraymessages ein:
Was bedeutet finish_reason?
| Value | Bedeutung |
|---|---|
stop | Natürlicher Abschluss oder eine Stop-Sequenz wurde erreicht. |
length | Das Limit für max_tokens oder max_completion_tokens wurde erreicht. |
tool_calls | Das model hat einen oder mehrere Tool-/Funktionsaufrufe ausgelöst. |
content_filter | Die Ausgabe wurde aufgrund der Content-Richtlinie gefiltert. |
Wie kontrolliert man die Kosten?
- Verwenden Sie
max_completion_tokens, um die Ausgabelänge zu begrenzen. - Wählen Sie kosteneffiziente Modelle (z. B.
gpt-5.4-miniodergpt-5.4-nanofür einfachere Aufgaben). - Halten Sie Prompts knapp — vermeiden Sie redundanten Kontext.
- Überwachen Sie die Token-Nutzung im Antwortfeld
usage.
Autorisierungen
Bearer token authentication. Use your CometAPI key.
Body
Model ID to use for this request. See the Models page for current options.
"gpt-4.1"
A list of messages forming the conversation. Each message has a role (system, user, assistant, or developer) and content (text string or multimodal content array).
If true, partial response tokens are delivered incrementally via server-sent events (SSE). The stream ends with a data: [DONE] message.
Sampling temperature between 0 and 2. Higher values (e.g., 0.8) produce more random output; lower values (e.g., 0.2) make output more focused and deterministic. Recommended to adjust this or top_p, but not both.
0 <= x <= 2Nucleus sampling parameter. The model considers only the tokens whose cumulative probability reaches top_p. For example, 0.1 means only the top 10% probability tokens are considered. Recommended to adjust this or temperature, but not both.
0 <= x <= 1Number of completion choices to generate for each input message. Defaults to 1.
Up to 4 sequences where the API will stop generating further tokens. Can be a string or an array of strings.
Maximum number of tokens to generate in the completion. The total of input + output tokens is capped by the model's context length.
Number between -2.0 and 2.0. Positive values penalize tokens based on whether they have already appeared, encouraging the model to explore new topics.
-2 <= x <= 2Number between -2.0 and 2.0. Positive values penalize tokens proportionally to how often they have appeared, reducing verbatim repetition.
-2 <= x <= 2A JSON object mapping token IDs to bias values from -100 to 100. The bias is added to the model's logits before sampling. Values between -1 and 1 subtly adjust likelihood; -100 or 100 effectively ban or force selection of a token.
A unique identifier for your end-user. Helps with abuse detection and monitoring.
An upper bound for the number of tokens to generate, including visible output tokens and reasoning tokens. Use this instead of max_tokens for GPT-4.1+, GPT-5 series, and o-series models.
Specifies the output format. Use {"type": "json_object"} for JSON mode, or {"type": "json_schema", "json_schema": {...}} for strict structured output.
A list of tools the model may call. Currently supports function type tools.
Controls how the model selects tools. auto (default): model decides. none: no tools. required: must call a tool.
Whether to return log probabilities of the output tokens.
Number of most likely tokens to return at each position (0-20). Requires logprobs to be true.
0 <= x <= 20Controls the reasoning effort for o-series and GPT-5.1+ models.
low, medium, high Options for streaming. Only valid when stream is true.
Specifies the processing tier.
auto, default, flex, priority Antwort
Successful chat completion response.
Unique completion identifier.
"chatcmpl-abc123"
chat.completion "chat.completion"
Unix timestamp of creation.
1774412483
The model used (may include version suffix).
"gpt-5.4-2025-07-16"
Array of completion choices.
"default"
"fp_490a4ad033"