Chat Completions
Bruk CometAPI POST /v1/chat/completions til å sende samtaler med flere meldinger og få LLM-svar med Streaming, temperature- og max_tokens-kontroller.
CometAPI ruter Chat Completions til flere leverandører — inkludert OpenAI, Claude og Gemini — gjennom ett OpenAI-kompatibelt grensesnitt. Bytt mellom modeller ved å endre parameterenDocumentation Index
Fetch the complete documentation index at: https://apidoc.cometapi.com/llms.txt
Use this file to discover all available pages before exploring further.
model; de fleste OpenAI-kompatible SDK-er fungerer ved å sette base_url til https://api.cometapi.com/v1.
Meldingsroller
| Role | Description |
|---|---|
system | Setter assistentens oppførsel og personlighet. Plasseres i starten av samtalen. |
developer | Erstatter system for nyere modeller (o1+). Gir instruksjoner modellen skal følge uavhengig av brukerinput. |
user | Meldinger fra sluttbrukeren. |
assistant | Tidligere modellsvar, brukt for å opprettholde samtalehistorikk. |
tool | Resultater fra tool-/function-kall. Må inkludere tool_call_id som samsvarer med det opprinnelige tool-kallet. |
Send Multimodal-input
Mange modeller støtter bilder og lyd sammen med tekst. For å sende Multimodal-meldinger, bruk array-formatet forcontent:
detail styrer dybden på bildeanalysen:
low— raskere, bruker færre tokens (fast kostnad)high— detaljert analyse, flere tokens brukesauto— modellen bestemmer (standard)
Stream svar
For å motta inkrementell output, settstream til true. Responsen leveres som Server-Sent Events (SSE), der hver hendelse inneholder et chat.completion.chunk-objekt:
Be om strukturert output
For å tvinge modellen til å returnere gyldig JSON som samsvarer med et bestemt schema, brukresponse_format:
json_schema) garanterer at output samsvarer nøyaktig med schemaet ditt. JSON Object-modus (json_object) garanterer bare gyldig JSON — strukturen håndheves ikke.Kall tools og functions
For å gjøre det mulig for modellen å kalle eksterne functions, oppgi tool-definisjoner:finish_reason: "tool_calls" og arrayet message.tool_calls vil inneholde function-navnet og argumentene. Deretter kjører du functionen og sender resultatet tilbake som en tool-melding med tilhørende tool_call_id.
Merknader på tvers av leverandører
Parameterstøtte på tvers av leverandører
Parameterstøtte på tvers av leverandører
| Parameter | OpenAI GPT | Claude (via compat) | Gemini (via compat) |
|---|---|---|---|
temperature | 0–2 | 0–1 | 0–2 |
top_p | 0–1 | 0–1 | 0–1 |
n | 1–128 | Bare 1 | 1–8 |
stop | Opptil 4 | Opptil 4 | Opptil 5 |
tools | ✅ | ✅ | ✅ |
response_format | ✅ | ✅ (json_schema) | ✅ |
logprobs | ✅ | ❌ | ❌ |
reasoning_effort | o-series, GPT-5.1+ | ❌ | ❌ (bruk thinking for Gemini native) |
max_tokens vs max_completion_tokens
max_tokens vs max_completion_tokens
max_tokens— Den eldre parameteren. Fungerer med de fleste modeller, men er foreldet for nyere OpenAI-modeller.max_completion_tokens— Den anbefalte parameteren for GPT-4.1, GPT-5-serien og o-series-modeller. Påkrevd for resonneringsmodeller siden den inkluderer både output tokens og reasoning tokens.
system vs developer role
system vs developer role
system— Den tradisjonelle instruksjonsrollen. Fungerer med alle modeller.developer— Introdusert med o1-modeller. Gir sterkere etterlevelse av instruksjoner for nyere modeller. Faller tilbake tilsystem-oppførsel på eldre modeller.
developer for nye prosjekter som retter seg mot GPT-4.1+ eller o-series-modeller.FAQ
Hvordan håndtere rate limits?
Når du støter på429 Too Many Requests, implementer eksponentiell backoff:
Hvordan opprettholde samtalekontekst?
Inkluder hele samtalehistorikken i arrayetmessages:
Hva betyr finish_reason?
| Value | Meaning |
|---|---|
stop | Naturlig fullføring eller traff en stop-sekvens. |
length | Nådde grensen for max_tokens eller max_completion_tokens. |
tool_calls | Modellen utløste ett eller flere tool-/function-kall. |
content_filter | Output ble filtrert på grunn av innholdspolicy. |
Hvordan kontrollere kostnader?
- Bruk
max_completion_tokensfor å sette en grense for output-lengde. - Velg kostnadseffektive modeller (f.eks.
gpt-5.4-miniellergpt-5.4-nanofor enklere oppgaver). - Hold prompts korte — unngå redundant kontekst.
- Overvåk token-bruk i responsfeltet
usage.
Autorisasjoner
Bearer token authentication. Use your CometAPI key.
Kropp
Model ID to use for this request. See the Models page for current options.
"gpt-4.1"
A list of messages forming the conversation. Each message has a role (system, user, assistant, or developer) and content (text string or multimodal content array).
If true, partial response tokens are delivered incrementally via server-sent events (SSE). The stream ends with a data: [DONE] message.
Sampling temperature between 0 and 2. Higher values (e.g., 0.8) produce more random output; lower values (e.g., 0.2) make output more focused and deterministic. Recommended to adjust this or top_p, but not both.
0 <= x <= 2Nucleus sampling parameter. The model considers only the tokens whose cumulative probability reaches top_p. For example, 0.1 means only the top 10% probability tokens are considered. Recommended to adjust this or temperature, but not both.
0 <= x <= 1Number of completion choices to generate for each input message. Defaults to 1.
Up to 4 sequences where the API will stop generating further tokens. Can be a string or an array of strings.
Maximum number of tokens to generate in the completion. The total of input + output tokens is capped by the model's context length.
Number between -2.0 and 2.0. Positive values penalize tokens based on whether they have already appeared, encouraging the model to explore new topics.
-2 <= x <= 2Number between -2.0 and 2.0. Positive values penalize tokens proportionally to how often they have appeared, reducing verbatim repetition.
-2 <= x <= 2A JSON object mapping token IDs to bias values from -100 to 100. The bias is added to the model's logits before sampling. Values between -1 and 1 subtly adjust likelihood; -100 or 100 effectively ban or force selection of a token.
A unique identifier for your end-user. Helps with abuse detection and monitoring.
An upper bound for the number of tokens to generate, including visible output tokens and reasoning tokens. Use this instead of max_tokens for GPT-4.1+, GPT-5 series, and o-series models.
Specifies the output format. Use {"type": "json_object"} for JSON mode, or {"type": "json_schema", "json_schema": {...}} for strict structured output.
A list of tools the model may call. Currently supports function type tools.
Controls how the model selects tools. auto (default): model decides. none: no tools. required: must call a tool.
Whether to return log probabilities of the output tokens.
Number of most likely tokens to return at each position (0-20). Requires logprobs to be true.
0 <= x <= 20Controls the reasoning effort for o-series and GPT-5.1+ models.
low, medium, high Options for streaming. Only valid when stream is true.
Specifies the processing tier.
auto, default, flex, priority Svar
Successful chat completion response.
Unique completion identifier.
"chatcmpl-abc123"
chat.completion "chat.completion"
Unix timestamp of creation.
1774412483
The model used (may include version suffix).
"gpt-5.4-2025-07-16"
Array of completion choices.
"default"
"fp_490a4ad033"