レート制限と同時実行を処理する

リクエストがアプリを離れる前に同時実行を制御して、レート制限に対応します。CometAPI が 429 を返した場合は、指数バックオフとジッターを使って再試行し、再試行が繰り返し発生する場合はバーストトラフィックを抑えてください。

同時実行数を制限する

次の Python の例では、非同期セマフォを使って同時実行されるチャットリクエスト数を制限しています。

import asyncio
import os
from openai import AsyncOpenAI

client = AsyncOpenAI(
    api_key=os.environ["COMETAPI_KEY"],
    base_url="https://api.cometapi.com/v1",
)

semaphore = asyncio.Semaphore(5)

async def ask(prompt):
    async with semaphore:
        completion = await client.chat.completions.create(
            model="your-model-id",
            messages=[{"role": "user", "content": prompt}],
        )
        return completion.choices[0].message.content

async def main():
    prompts = ["Say hello.", "Write a title.", "Return one JSON key."]
    results = await asyncio.gather(*(ask(prompt) for prompt in prompts))
    print(results)

asyncio.run(main())

結果は model の出力の配列になります。

[
  "Hello.",
  "A concise title",
  "{\"key\":\"value\"}"
]

レート制限を再試行する

次の JavaScript の例では、429 レスポンスをジッター付きで再試行します。

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.COMETAPI_KEY,
  baseURL: "https://api.cometapi.com/v1",
});

async function sleep(milliseconds) {
  return new Promise((resolve) => setTimeout(resolve, milliseconds));
}

async function createCompletion() {
  for (let attempt = 0; attempt < 5; attempt += 1) {
    try {
      return await client.chat.completions.create({
        model: "your-model-id",
        messages: [{ role: "user", content: "Say hello." }],
      });
    } catch (error) {
      if (error.status !== 429 || attempt === 4) {
        throw error;
      }

      const delay = Math.min(30000, 1000 * 2 ** attempt);
      await sleep(delay + Math.random() * 1000);
    }
  }
}

const completion = await createCompletion();
console.log(completion.choices[0].message.content);

成功したレスポンスには通常のチャット補完が含まれます。

{
  "choices": [
    {
      "message": {
        "content": "Hello."
      }
    }
  ]
}

よくあるエラー

Error	Fix
無制限の並列リクエスト	セマフォ、キュー、またはワーカープールを追加します。
すべての失敗を再試行する	`429` と一時的なサーバー障害のみを再試行します。
model ごとのメトリクスがない	各リクエストについて route、model ID、status、latency をログに記録します。
再試行の嵐	ジッターを追加し、再試行遅延の最大値を制限します。

ここから始める

モデルAPIクイックスタート

Core API ガイド

ライブラリ

エラー

料金と請求

サポート

レート制限と同時実行を処理する

同時実行数を制限する

レート制限を再試行する

よくあるエラー

関連リンク

​同時実行数を制限する

​レート制限を再試行する

​よくあるエラー

​関連リンク

同時実行数を制限する

レート制限を再試行する

よくあるエラー

関連リンク