Создание Chat Completion

POST

chat

completions

import os
from openai import OpenAI
client = OpenAI(
    base_url="https://api.cometapi.com/v1",
    api_key=os.environ["COMETAPI_KEY"],
)

completion = client.chat.completions.create(
    model="gpt-5.6-sol",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message)

{
  "id": "chatcmpl-DNA27oKtBUL8TmbGpBM3B3zhWgYfZ",
  "object": "chat.completion",
  "created": 1774412483,
  "model": "gpt-4.1-nano-2025-04-14",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Four",
        "refusal": null,
        "annotations": []
      },
      "logprobs": null,
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 29,
    "completion_tokens": 2,
    "total_tokens": 31,
    "prompt_tokens_details": {
      "cached_tokens": 0,
      "audio_tokens": 0
    },
    "completion_tokens_details": {
      "reasoning_tokens": 0,
      "audio_tokens": 0,
      "accepted_prediction_tokens": 0,
      "rejected_prediction_tokens": 0
    }
  },
  "service_tier": "default",
  "system_fingerprint": "fp_490a4ad033"
}

{
  "error": {
    "code": "",
    "message": "model name is required (request id: <request_id>)",
    "type": "comet_api_error"
  }
}

{
  "error": {
    "code": "",
    "message": "invalid token (request id: <request_id>)",
    "type": "comet_api_error"
  }
}

{
  "error": {
    "message": "field messages is required (request id: <request_id>)",
    "type": "comet_api_error",
    "param": "",
    "code": "invalid_request"
  }
}

CometAPI направляет Chat Completions нескольким провайдерам, включая OpenAI, Claude и Gemini, через единый OpenAI-совместимый интерфейс. Переключайтесь между моделями, изменяя параметр model; большинство OpenAI-совместимых SDK работают при установке base_url в https://api.cometapi.com/v1.

Параметры запроса и поля ответа могут существенно различаться у разных провайдеров моделей. Если вам требуется полный список параметров или поведение, специфичное для провайдера, обращайтесь к официальной документации провайдера используемой модели. Например, reasoning_effort применяется только к reasoning-моделям (o-series, GPT-5.1+), а некоторые модели не поддерживают logprobs или n > 1.

Для моделей OpenAI Pro, reasoning-моделей o-series и моделей Codex используйте конечную точку Responses вместо неё. Эти семейства моделей имеют более полную поддержку в API Responses.

Роли сообщений

Роль	Описание
`system`	Задаёт поведение и индивидуальность ассистента. Размещается в начале диалога.
`developer`	Заменяет `system` для новых моделей (o1+). Содержит инструкции, которым модель должна следовать независимо от пользовательского ввода.
`user`	Сообщения от конечного пользователя.
`assistant`	Предыдущие ответы модели, используемые для сохранения истории диалога.
`tool`	Результаты вызовов инструментов или функций. Должны включать `tool_call_id`, соответствующий исходному вызову инструмента.

Для новых моделей (GPT-4.1, серии GPT-5, o-series) для сообщений с инструкциями предпочтительнее использовать developer вместо system. Работают оба варианта, но developer обеспечивает более строгое следование инструкциям.

Отправка Multimodal-ввода

Многие модели поддерживают изображения и аудио наряду с текстом. Чтобы отправлять Multimodal-сообщения, используйте формат массива для content:

{
  "role": "user",
  "content": [
    {"type": "text", "text": "Describe this image"},
    {
      "type": "image_url",
      "image_url": {
        "url": "https://example.com/image.png",
        "detail": "high"
      }
    }
  ]
}

Параметр detail управляет глубиной анализа изображений:

low — быстрее, использует меньше Tokens (фиксированная стоимость)
high — подробный анализ, расходуется больше Tokens
auto — решение принимает модель (по умолчанию)

Потоковая передача ответов

Чтобы получать результат постепенно, установите stream в true. Ответ передаётся в виде Server-Sent Events (SSE), где каждое событие содержит объект chat.completion.chunk:

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"role":"assistant"},"finish_reason":null}]}

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"content":"Hello"},"finish_reason":null}]}

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{"content":"!"},"finish_reason":null}]}

data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"index":0,"delta":{},"finish_reason":"stop"}]}

data: [DONE]

Чтобы включить статистику использования Tokens в потоковые ответы, установите stream_options.include_usage в true. Данные об использовании появляются в последнем чанке перед [DONE].

Запрос структурированного вывода

Чтобы принудительно вернуть корректный JSON, соответствующий определённой схеме, используйте response_format:

{
  "response_format": {
    "type": "json_schema",
    "json_schema": {
      "name": "result",
      "strict": true,
      "schema": {
        "type": "object",
        "properties": {
          "answer": {"type": "string"},
          "confidence": {"type": "number"}
        },
        "required": ["answer", "confidence"],
        "additionalProperties": false
      }
    }
  }
}

{
  "response_format": {"type": "json_object"}
}

Режим JSON Schema (json_schema) гарантирует, что вывод в точности соответствует вашей схеме. Режим JSON Object (json_object) гарантирует только корректный JSON — структура не проверяется.

Вызов инструментов и функций

Чтобы позволить модели вызывать внешние функции, предоставьте определения инструментов:

{
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "get_weather",
        "description": "Get current weather for a city",
        "parameters": {
          "type": "object",
          "properties": {
            "location": {"type": "string", "description": "City name"}
          },
          "required": ["location"]
        }
      }
    }
  ],
  "tool_choice": "auto"
}

Когда модель решает вызвать инструмент, ответ будет содержать finish_reason: "tool_calls", а массив message.tool_calls будет включать имя функции и аргументы. Затем выполните функцию и отправьте результат обратно как сообщение tool с соответствующим tool_call_id.

Примечания по провайдерам

Поддержка параметров у разных провайдеров

Параметр	OpenAI GPT	Claude (через compat)	Gemini (через compat)
`temperature`	0–2	0–1	0–2
`top_p`	0–1	0–1	0–1
`n`	1–128	Только 1	1–8
`stop`	До 4	До 4	До 5
`tools`	✅	✅	✅
`response_format`	✅	✅ (json_schema)	✅
`logprobs`	✅	❌	❌
`reasoning_effort`	o-series, GPT-5.1+	❌	❌ (используйте `thinking` для нативного Gemini)

max_tokens и max_completion_tokens

max_tokens — Устаревший параметр. Работает с большинством моделей, но не рекомендуется для новых моделей OpenAI.
max_completion_tokens — Рекомендуемый параметр для моделей GPT-4.1, серии GPT-5 и моделей o-series. Обязателен для reasoning-моделей, так как включает как выходные Tokens, так и Tokens рассуждений.

CometAPI автоматически обрабатывает сопоставление при маршрутизации к разным провайдерам.

Роли system и developer

system — Традиционная роль для инструкций. Работает со всеми моделями.
developer — Представлена в моделях o1. Обеспечивает более строгое следование инструкциям в новых моделях. В старых моделях используется поведение system.

Используйте developer для новых проектов, ориентированных на модели GPT-4.1+ или o-series.

Часто задаваемые вопросы

Как обрабатывать ограничения скорости?

При возникновении 429 Too Many Requests реализуйте экспоненциальную задержку повторных попыток:

import os
import time
import random
from openai import OpenAI, RateLimitError

client = OpenAI(
    base_url="https://api.cometapi.com/v1",
    api_key=os.environ["COMETAPI_KEY"],
)

def chat_with_retry(messages, max_retries=3):
    for i in range(max_retries):
        try:
            return client.chat.completions.create(
                model="gpt-5.6-sol",
                messages=messages,
            )
        except RateLimitError:
            if i < max_retries - 1:
                wait_time = (2 ** i) + random.random()
                time.sleep(wait_time)
            else:
                raise

Как сохранять контекст диалога?

Включайте полную историю диалога в массив messages:

messages = [
    {"role": "developer", "content": "You are a helpful assistant."},
    {"role": "user", "content": "What is Python?"},
    {"role": "assistant", "content": "Python is a high-level programming language..."},
    {"role": "user", "content": "What are its main advantages?"},
]

Что означает `finish_reason`?

Значение	Смысл
`stop`	Естественное завершение или достижение стоп-последовательности.
`length`	Достигнут лимит `max_tokens` или `max_completion_tokens`.
`tool_calls`	Модель вызвала один или несколько инструментов или функций.
`content_filter`	Вывод был отфильтрован в соответствии с политикой контента.

Как контролировать расходы?

Используйте max_completion_tokens для ограничения длины вывода.
Используйте gpt-5.6-terra для баланса между интеллектуальностью и стоимостью или gpt-5.6-luna для эффективных высоконагруженных задач.
Делайте Prompt краткими — избегайте избыточного контекста.
Отслеживайте использование Tokens в поле ответа usage.

Авторизации

Authorization

string

header

обязательно

Bearer token authentication. Use your CometAPI key.

Тело

application/json

model

string

по умолчанию:gpt-5.6-sol

обязательно

Model ID to use for this request. See the Models page for current options.

Пример:

"gpt-4.1"

messages

object[]

обязательно

A list of messages forming the conversation. Each message has a role (system, user, assistant, or developer) and content (text string or multimodal content array).

Show child attributes

stream

boolean

If true, partial response tokens are delivered incrementally via server-sent events (SSE). The stream ends with a data: [DONE] message.

temperature

number

по умолчанию:1

Sampling temperature between 0 and 2. Higher values (e.g., 0.8) produce more random output; lower values (e.g., 0.2) make output more focused and deterministic. Recommended to adjust this or top_p, but not both.

Требуемый диапазон: 0 <= x <= 2

top_p

number

по умолчанию:1

Nucleus sampling parameter. The model considers only the tokens whose cumulative probability reaches top_p. For example, 0.1 means only the top 10% probability tokens are considered. Recommended to adjust this or temperature, but not both.

Требуемый диапазон: 0 <= x <= 1

integer

по умолчанию:1

Number of completion choices to generate for each input message. Defaults to 1.

stop

string

Up to 4 sequences where the API will stop generating further tokens. Can be a string or an array of strings.

max_tokens

integer

Maximum number of tokens to generate in the completion. The total of input + output tokens is capped by the model's context length.

presence_penalty

number

по умолчанию:0

Number between -2.0 and 2.0. Positive values penalize tokens based on whether they have already appeared, encouraging the model to explore new topics.

Требуемый диапазон: -2 <= x <= 2

frequency_penalty

number

по умолчанию:0

Number between -2.0 and 2.0. Positive values penalize tokens proportionally to how often they have appeared, reducing verbatim repetition.

Требуемый диапазон: -2 <= x <= 2

logit_bias

object

A JSON object mapping token IDs to bias values from -100 to 100. The bias is added to the model's logits before sampling. Values between -1 and 1 subtly adjust likelihood; -100 or 100 effectively ban or force selection of a token.

user

string

A unique identifier for your end-user. Helps with abuse detection and monitoring.

max_completion_tokens

integer

An upper bound for the number of tokens to generate, including visible output tokens and reasoning tokens. Use this instead of max_tokens for GPT-4.1+, GPT-5 series, and o-series models.

response_format

object

Specifies the output format. Use {"type": "json_object"} for JSON mode, or {"type": "json_schema", "json_schema": {...}} for strict structured output.

Show child attributes

tools

object[]

A list of tools the model may call. Currently supports function type tools.

Show child attributes

tool_choice

по умолчанию:auto

Controls how the model selects tools. auto (default): model decides. none: no tools. required: must call a tool.

logprobs

boolean

по умолчанию:false

Whether to return log probabilities of the output tokens.

top_logprobs

integer

Number of most likely tokens to return at each position (0-20). Requires logprobs to be true.

Требуемый диапазон: 0 <= x <= 20

reasoning_effort

enum<string>

Controls the reasoning effort for o-series and GPT-5.1+ models.

Доступные опции:

low,

medium,

high

stream_options

object

Options for streaming. Only valid when stream is true.

Show child attributes

service_tier

enum<string>

Specifies the processing tier.

Доступные опции:

auto,

default,

flex,

priority

Ответ

Successful chat completion response.

string

Unique completion identifier.

Пример:

"chatcmpl-abc123"

object

enum<string>

Object type. Non-streaming responses use chat.completion.

Доступные опции:

chat.completion

Пример:

"chat.completion"

created

integer

Unix timestamp of creation.

Пример:

1774412483

model

string

The model used (may include version suffix).

Пример:

"gpt-5.4-2026-03-05"

choices

object[]

Array of completion choices.

Show child attributes

usage

object

Token accounting for this request. Billing uses these counts.

Show child attributes

service_tier

string

Service tier that processed the request, when the provider reports one.

Пример:

"default"

system_fingerprint

string | null

Provider backend configuration fingerprint, when the provider reports one.

Пример:

"fp_490a4ad033"

Текстовые и chat API

Создать ответ модели

import os
from openai import OpenAI
client = OpenAI(
    base_url="https://api.cometapi.com/v1",
    api_key=os.environ["COMETAPI_KEY"],
)

completion = client.chat.completions.create(
    model="gpt-5.6-sol",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message)

{
  "id": "chatcmpl-DNA27oKtBUL8TmbGpBM3B3zhWgYfZ",
  "object": "chat.completion",
  "created": 1774412483,
  "model": "gpt-4.1-nano-2025-04-14",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Four",
        "refusal": null,
        "annotations": []
      },
      "logprobs": null,
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 29,
    "completion_tokens": 2,
    "total_tokens": 31,
    "prompt_tokens_details": {
      "cached_tokens": 0,
      "audio_tokens": 0
    },
    "completion_tokens_details": {
      "reasoning_tokens": 0,
      "audio_tokens": 0,
      "accepted_prediction_tokens": 0,
      "rejected_prediction_tokens": 0
    }
  },
  "service_tier": "default",
  "system_fingerprint": "fp_490a4ad033"
}

{
  "error": {
    "code": "",
    "message": "model name is required (request id: <request_id>)",
    "type": "comet_api_error"
  }
}

{
  "error": {
    "code": "",
    "message": "invalid token (request id: <request_id>)",
    "type": "comet_api_error"
  }
}

{
  "error": {
    "message": "field messages is required (request id: <request_id>)",
    "type": "comet_api_error",
    "param": "",
    "code": "invalid_request"
  }
}

Модерация контента

API-ключи

Роли сообщений

Отправка Multimodal-ввода

Потоковая передача ответов

Запрос структурированного вывода

Вызов инструментов и функций

Примечания по провайдерам

Часто задаваемые вопросы

Как обрабатывать ограничения скорости?

Как сохранять контекст диалога?

Что означает `finish_reason`?

Как контролировать расходы?

Авторизации

Тело

Ответ

​Роли сообщений

​Отправка Multimodal-ввода

​Потоковая передача ответов

​Запрос структурированного вывода

​Вызов инструментов и функций

​Примечания по провайдерам

​Часто задаваемые вопросы

​Как обрабатывать ограничения скорости?

​Как сохранять контекст диалога?

​Что означает finish_reason?

​Как контролировать расходы?

Авторизации

Тело

Ответ

Роли сообщений

Отправка Multimodal-ввода

Потоковая передача ответов

Запрос структурированного вывода

Вызов инструментов и функций

Примечания по провайдерам

Часто задаваемые вопросы

Как обрабатывать ограничения скорости?

Как сохранять контекст диалога?

Что означает `finish_reason`?

Как контролировать расходы?