Eine Message erstellen

POST

messages

import os
import anthropic

client = anthropic.Anthropic(
    base_url="https://api.cometapi.com",
    api_key=os.environ["COMETAPI_KEY"],
)

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    system="You are a helpful assistant.",
    messages=[
        {"role": "user", "content": "Hello, world"}
    ],
)

print(message.content[0].text)

{
  "id": "<string>",
  "type": "message",
  "role": "assistant",
  "content": [
    {
      "text": "<string>",
      "thinking": "<string>",
      "signature": "<string>",
      "id": "<string>",
      "name": "<string>",
      "input": {}
    }
  ],
  "model": "<string>",
  "stop_sequence": "<string>",
  "usage": {
    "input_tokens": 123,
    "output_tokens": 123,
    "cache_creation_input_tokens": 123,
    "cache_read_input_tokens": 123,
    "cache_creation": {
      "ephemeral_5m_input_tokens": 123,
      "ephemeral_1h_input_tokens": 123
    },
    "output_tokens_details": {
      "thinking_tokens": 123
    }
  }
}

CometAPI unterstützt die Anthropic Messages API nativ und bietet Ihnen direkten Zugriff auf Claude-Modelle mit Anthropic-spezifischen Funktionen. Verwenden Sie diesen Endpunkt für Claude-Funktionen wie adaptive thinking, prompt caching und effort control.

Verwenden Sie die offizielle Anthropic Messages API-Referenz als maßgebliche Quelle für die vollständige Parameterliste, das Antwortschema und das Claude-spezifische Verhalten. Diese CometAPI-Seite erklärt, wie Sie diese Request-Struktur über CometAPI senden.

Anthropic-Anfrageparameter und Antwortfelder können sich ändern, wenn sich Claude-Funktionen weiterentwickeln. Prüfen Sie die Anthropic Messages API-Dokumentation auf die aktuelle vollständige Parameterliste und anbieterspezifisches Verhalten.

Viele neuere Claude-Modelle lehnen in der Messages API nicht standardmäßige temperature-, top_p- und top_k-Werte ab. Lassen Sie diese Sampling-Felder weg, sofern Sie die Unterstützung für das ausgewählte Modell nicht verifiziert haben. Wenn ein Modell einen Fehler zu einem nicht unterstützten oder veralteten Parameter zurückgibt, entfernen Sie das Feld aus der Anfrage.

Sowohl x-api-key- als auch Authorization: Bearer-Header werden für die Authentifizierung unterstützt. Die offiziellen Anthropic SDKs verwenden standardmäßig x-api-key.

Schnellstart

Um das offizielle Anthropic SDK mit CometAPI zu verwenden, setzen Sie die Basis-URL:

import os
import anthropic

client = anthropic.Anthropic(
    base_url="https://api.cometapi.com",
    api_key=os.environ["COMETAPI_KEY"],
)

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello!"}],
)
print(message.content[0].text)

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic({
    apiKey: process.env.COMETAPI_KEY,
    baseURL: "https://api.cometapi.com",
});

const message = await client.messages.create({
    model: "claude-sonnet-5",
    max_tokens: 1024,
    messages: [{ role: "user", content: "Hello!" }],
});
console.log(message.content[0].text);

Adaptive thinking steuern

Verwenden Sie adaptive thinking mit output_config.effort, um zu steuern, wie viel Arbeit Claude auf eine Antwort verwendet. Neuere Claude-Modelle lehnen die veraltete manuelle thinking-Form thinking={"type": "enabled", "budget_tokens": ...} ab.

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=4096,
    thinking={"type": "adaptive"},
    output_config={"effort": "xhigh"},
    messages=[
        {
            "role": "user",
            "content": "Analyze the trade-offs between a monolithic architecture and microservices for a small engineering team.",
        }
    ],
)

for block in message.content:
    if block.type == "text":
        print(block.text)

Thinking-Tokens werden auf Ihr max_tokens-Limit angerechnet. Setzen Sie max_tokens hoch genug für thinking und die endgültige Antwort, wenn Sie höhere effort-Stufen verwenden.

Prompts cachen

Um Latenz und Kosten bei nachfolgenden Anfragen zu reduzieren, cachen Sie große System-Prompts oder Konversationspräfixe. Fügen Sie cache_control zu content-Blöcken hinzu, die gecacht werden sollen:

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "You are an expert code reviewer. [Long detailed instructions...]",
            "cache_control": {"type": "ephemeral"},
        }
    ],
    messages=[{"role": "user", "content": "Review this code..."}],
)

Die Cache-Nutzung wird im usage-Feld der Antwort gemeldet:

cache_creation_input_tokens — in den Cache geschriebene Tokens (zu einem höheren Satz abgerechnet)
cache_read_input_tokens — aus dem Cache gelesene Tokens (zu einem reduzierten Satz abgerechnet)

Prompt-Caching erfordert mindestens 1.024 Tokens im gecachten content-Block. Kürzere Inhalte werden nicht gecacht.

Responses streamen

Um Responses mit Server-Sent Events (SSE) zu streamen, setzen Sie stream: true. Events treffen in dieser Reihenfolge ein:

message_start — enthält die Metadaten der Nachricht und die anfängliche Nutzung
content_block_start — markiert den Beginn jedes content-Blocks
content_block_delta — inkrementelle Textteile (text_delta)
content_block_stop — markiert das Ende jedes content-Blocks
message_delta — finaler stop_reason und vollständige usage
message_stop — signalisiert das Ende des Streams

with client.messages.stream(
    model="claude-sonnet-5",
    max_tokens=256,
    messages=[{"role": "user", "content": "Hello"}],
) as stream:
    for text in stream.text_stream:
        print(text, end="")

Aufwand steuern

Um zu steuern, wie viel Aufwand Claude in die Generierung einer Antwort steckt, verwenden Sie output_config.effort:

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "Summarize this briefly."}
    ],
    output_config={"effort": "low"},  # "low", "medium", "high", "xhigh", or "max"
)

Server-Tools verwenden

Claude unterstützt serverseitige Tools, die auf der Infrastruktur von Anthropic ausgeführt werden:

Web Fetch
Web Search

Rufen Sie Inhalte von URLs ab und analysieren Sie sie:

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Analyze the content at https://arxiv.org/abs/1512.03385"}
    ],
    tools=[
        {"type": "web_fetch_20250910", "name": "web_fetch", "max_uses": 5}
    ],
)

Durchsuchen Sie das Web nach Echtzeitinformationen:

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "What are the latest developments in AI?"}
    ],
    tools=[
        {"type": "web_search_20250305", "name": "web_search", "max_uses": 5}
    ],
)

Antwortbeispiel

Eine typische Antwort vom Anthropic-Endpunkt von CometAPI:

{
  "id": "msg_bdrk_01UjHdmSztrL7QYYm7CKBDFB",
  "type": "message",
  "role": "assistant",
  "content": [
    {
      "type": "text",
      "text": "Hello!"
    }
  ],
  "model": "claude-sonnet-5",
  "stop_reason": "end_turn",
  "stop_sequence": null,
  "usage": {
    "input_tokens": 19,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "cache_creation": {
      "ephemeral_5m_input_tokens": 0,
      "ephemeral_1h_input_tokens": 0
    },
    "output_tokens": 4
  }
}

Vergleich mit dem OpenAI-kompatiblen Endpunkt

Funktion	Anthropic Messages (`/v1/messages`)	OpenAI-kompatibel (`/v1/chat/completions`)
Adaptives Denken	`thinking` mit `type: "adaptive"` und `output_config.effort`	Nicht verfügbar
Prompt-Caching	`cache_control` auf content-Blöcken	Nicht verfügbar
Effort-Steuerung	`output_config.effort`	Nicht verfügbar
Web-Abruf/-Suche	Server-Tools (`web_fetch`, `web_search`)	Nicht verfügbar
Auth-Header	`x-api-key` oder `Bearer`	Nur `Bearer`
Antwortformat	Anthropic-Format (`content`-Blöcke)	OpenAI-Format (`choices`, `message`)
Modelle	Nur Claude	Multi-Provider (GPT, Claude, Gemini usw.)

Autorisierungen

x-api-key

string

header

erforderlich

Your CometAPI key passed via the x-api-key header. Authorization: Bearer $COMETAPI_KEY is also supported.

Header

anthropic-version

string

Standard:2023-06-01

The Anthropic API version to use. Defaults to 2023-06-01.

Beispiel:

"2023-06-01"

anthropic-beta

string

Comma-separated list of beta features to enable. Examples: max-tokens-3-5-sonnet-2024-07-15, pdfs-2024-09-25, output-128k-2025-02-19.

Body

application/json

model

string

erforderlich

The Claude model to use. See the Models page for available Claude model IDs.

Beispiel:

"claude-sonnet-5"

messages

object[]

erforderlich

The conversation messages. Must alternate between user and assistant roles. Each message's content can be a string or an array of content blocks (text, image, document, tool_use, tool_result). There is a limit of 100,000 messages per request.

Show child attributes

max_tokens

integer

erforderlich

The maximum number of tokens to generate. The model may stop before reaching this limit. When using thinking, the thinking tokens count towards this limit.

Erforderlicher Bereich: x >= 1

Beispiel:

1024

system

System prompt providing context and instructions to Claude. Can be a plain string or an array of content blocks (useful for prompt caching).

temperature

number

Standard:1

Model-dependent sampling control. Many newer Claude models reject non-default temperature values on the Messages API. Omit this field unless you have verified that the selected model accepts it; if the model returns an unsupported or deprecated-parameter error, remove the field instead of substituting another sampling value.

Erforderlicher Bereich: 0 <= x <= 1

Beispiel:

1

top_p

number

Model-dependent nucleus sampling control. Many newer Claude models reject non-default top_p values on the Messages API. Omit this field unless you have verified support for the selected model. Do not set temperature and top_p together.

Erforderlicher Bereich: 0 <= x <= 1

Beispiel:

1

top_k

integer

Model-dependent top-k sampling control. Many newer Claude models reject non-default top_k values on the Messages API. Omit this field unless you have verified support for the selected model.

Erforderlicher Bereich: x >= 0

Beispiel:

0

stream

boolean

Standard:false

If true, stream the response incrementally using Server-Sent Events (SSE). Events include message_start, content_block_start, content_block_delta, content_block_stop, message_delta, and message_stop.

stop_sequences

string[]

Custom strings that cause the model to stop generating when encountered. The stop sequence is not included in the response.

thinking

object

Controls Claude thinking when the selected model supports a configurable thinking mode. For newer adaptive-thinking models, use {"type":"adaptive"} with output_config.effort, or omit thinking when adaptive thinking is already the model default. Manual {"type":"enabled","budget_tokens":...} is supported only by older models and is rejected by newer Claude models.

Show child attributes

tools

object[]

Tools the model may use. Supports client-defined functions, web search (web_search_20250305), web fetch (web_fetch_20250910), code execution (code_execution_20250522), and more.

Show child attributes

tool_choice

object

Controls how the model uses tools.

Show child attributes

metadata

object

Request metadata for tracking and analytics.

Show child attributes

output_config

object

Configuration for response effort and output format. Field support depends on the selected Claude model.

Show child attributes

service_tier

enum<string>

The service tier to use. auto tries priority capacity first, standard_only uses only standard capacity.

Verfügbare Optionen:

auto,

standard_only

Antwort

200 - application/json

Successful response. When stream is true, the response is a stream of SSE events.

string

Unique identifier for this message (e.g., msg_01XFDUDYJgAACzvnptvVoYEL).

type

enum<string>

Always message.

Verfügbare Optionen:

message

role

enum<string>

Always assistant.

Verfügbare Optionen:

assistant

content

object[]

The response content blocks. May include text, thinking, tool_use, and other block types.

Show child attributes

model

string

The specific model version that generated this response, such as claude-sonnet-5.

stop_reason

enum<string>

Why the model stopped generating. refusal can be returned as a successful HTTP response when the model declines a request.

Verfügbare Optionen:

end_turn,

max_tokens,

stop_sequence,

tool_use,

pause_turn,

refusal

stop_sequence

string | null

The stop sequence that caused the model to stop, if applicable.

usage

object

Token usage statistics.

Show child attributes

Eine Modellantwort erstellen

Zurück

Inhalte generieren

Weiter

import os
import anthropic

client = anthropic.Anthropic(
    base_url="https://api.cometapi.com",
    api_key=os.environ["COMETAPI_KEY"],
)

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    system="You are a helpful assistant.",
    messages=[
        {"role": "user", "content": "Hello, world"}
    ],
)

print(message.content[0].text)

{
  "id": "<string>",
  "type": "message",
  "role": "assistant",
  "content": [
    {
      "text": "<string>",
      "thinking": "<string>",
      "signature": "<string>",
      "id": "<string>",
      "name": "<string>",
      "input": {}
    }
  ],
  "model": "<string>",
  "stop_sequence": "<string>",
  "usage": {
    "input_tokens": 123,
    "output_tokens": 123,
    "cache_creation_input_tokens": 123,
    "cache_read_input_tokens": 123,
    "cache_creation": {
      "ephemeral_5m_input_tokens": 123,
      "ephemeral_1h_input_tokens": 123
    },
    "output_tokens_details": {
      "thinking_tokens": 123
    }
  }
}

Inhaltsmoderation

API-Schlüssel

Schnellstart

Adaptive thinking steuern

Prompts cachen

Responses streamen

Aufwand steuern

Server-Tools verwenden

Antwortbeispiel

Vergleich mit dem OpenAI-kompatiblen Endpunkt

Autorisierungen

Header

Body

Antwort

​Schnellstart

​Adaptive thinking steuern

​Prompts cachen

​Responses streamen

​Aufwand steuern

​Server-Tools verwenden

​Antwortbeispiel

​Vergleich mit dem OpenAI-kompatiblen Endpunkt

Autorisierungen

Header

Body

Antwort

Schnellstart

Adaptive thinking steuern

Prompts cachen

Responses streamen

Aufwand steuern

Server-Tools verwenden

Antwortbeispiel

Vergleich mit dem OpenAI-kompatiblen Endpunkt