Rate Limits und Parallelität handhaben

Behandeln Sie Rate Limits, indem Sie die Parallelität kontrollieren, bevor Anfragen Ihre App verlassen. Wenn CometAPI 429 zurückgibt, versuchen Sie es mit exponentiellem Backoff und Jitter erneut und reduzieren Sie dann Burst-Traffic, falls wiederholte Retries auftreten.

Parallelität begrenzen

Das folgende Python-Beispiel begrenzt gleichzeitige Chat-Anfragen mit einem asynchronen Semaphore:

import asyncio
import os
from openai import AsyncOpenAI

client = AsyncOpenAI(
    api_key=os.environ["COMETAPI_KEY"],
    base_url="https://api.cometapi.com/v1",
)

semaphore = asyncio.Semaphore(5)

async def ask(prompt):
    async with semaphore:
        completion = await client.chat.completions.create(
            model="your-model-id",
            messages=[{"role": "user", "content": prompt}],
        )
        return completion.choices[0].message.content

async def main():
    prompts = ["Say hello.", "Write a title.", "Return one JSON key."]
    results = await asyncio.gather(*(ask(prompt) for prompt in prompts))
    print(results)

asyncio.run(main())

Das Ergebnis ist ein Array von Modellausgaben:

[
  "Hello.",
  "A concise title",
  "{\"key\":\"value\"}"
]

Rate Limits erneut versuchen

Das folgende JavaScript-Beispiel versucht 429-Antworten mit Jitter erneut:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.COMETAPI_KEY,
  baseURL: "https://api.cometapi.com/v1",
});

async function sleep(milliseconds) {
  return new Promise((resolve) => setTimeout(resolve, milliseconds));
}

async function createCompletion() {
  for (let attempt = 0; attempt < 5; attempt += 1) {
    try {
      return await client.chat.completions.create({
        model: "your-model-id",
        messages: [{ role: "user", content: "Say hello." }],
      });
    } catch (error) {
      if (error.status !== 429 || attempt === 4) {
        throw error;
      }

      const delay = Math.min(30000, 1000 * 2 ** attempt);
      await sleep(delay + Math.random() * 1000);
    }
  }
}

const completion = await createCompletion();
console.log(completion.choices[0].message.content);

Die erfolgreiche Antwort enthält eine normale Chat Completion:

{
  "choices": [
    {
      "message": {
        "content": "Hello."
      }
    }
  ]
}

Häufige Fehler

Error	Fix
Unbegrenzte parallele Anfragen	Fügen Sie ein Semaphore, eine Warteschlange oder einen Worker-Pool hinzu.
Alle Fehler erneut versuchen	Versuchen Sie nur `429` und temporäre Serverfehler erneut.
Keine Metriken pro Modell	Protokollieren Sie Route, model ID, Status und Latenz für jede Anfrage.
Retry-Sturm	Fügen Sie Jitter hinzu und begrenzen Sie die maximale Retry-Verzögerung.

Hier starten

Schnellstarts für Modell-APIs

Core API-Anleitungen

Bibliotheken

Fehler

Preise und Abrechnung

Support

Rate Limits und Parallelität handhaben

Parallelität begrenzen

Rate Limits erneut versuchen

Häufige Fehler

Verwandte Links

​Parallelität begrenzen

​Rate Limits erneut versuchen

​Häufige Fehler

​Verwandte Links

Parallelität begrenzen

Rate Limits erneut versuchen

Häufige Fehler

Verwandte Links