- 文字轉圖像生成
- 圖像轉圖像編輯
- 多圖合成
- 儲存生成的圖像
- Base URL:
https://api.cometapi.com - 安裝 SDK:
pip install google-genai(Python)或npm install @google/genai(Node.js)
設定
使用 CometAPI 的 base URL 初始化用戶端:文字轉圖片生成
根據文字 Prompt 生成圖片並將其儲存到檔案中。candidates[0].content.parts 中,其中可包含文字和/或圖片部分:
以圖生圖
上傳輸入圖片,並使用文字 Prompt 進行轉換。- Python SDK 可直接接受
PIL.Image物件,無需手動進行 Base64 編碼。 - 傳遞原始 Base64 字串時,不要包含
data:image/jpeg;base64,前綴。
多圖像合成
從多張輸入圖片產生一張新圖片。CometAPI 支援兩種方法:方法 1:單一拼貼圖片
將多張來源圖片合併成一張拼貼圖,然後描述你想要的輸出內容。

方法 2:多張獨立圖片(最多 14 張)
直接傳入多張圖片。Gemini 3 模型最多支援 14 張參考圖片(物件 + 角色):
4K 圖像生成
指定image_config 並設定 aspect_ratio 與 image_size,以產生高解析度輸出:
多輪圖像編輯(聊天)
使用 SDK 的聊天功能來逐步精修圖像:提示
Prompt 最佳化
Prompt 最佳化
指定風格關鍵字(例如:
"cyberpunk, film grain, low contrast")、長寬比、主體、背景、光線與細節層級。Base64 格式
Base64 格式
使用原始 HTTP 時,請勿包含
data:image/png;base64, 前綴——只使用原始 Base64 字串。Python SDK 會以 PIL.Image 物件自動處理這一點。強制輸出圖片
強制輸出圖片
將
"responseModalities" 設為僅 ["IMAGE"],即可保證只輸出圖片而不含文字。