- 文字生圖
- 圖生圖編輯
- 多圖合成
- 儲存生成的圖片
- Base URL:
https://api.cometapi.com - 安裝 SDK:
pip install google-genai(Python)或npm install @google/genai(Node.js)
設定
使用 CometAPI 的 base URL 初始化 client:文字轉圖片生成
根據文字 Prompt 生成圖片並將其儲存為檔案。candidates[0].content.parts 中,其中可以包含文字和/或圖片部分:
圖生圖生成
上傳一張輸入圖片,並透過文字 Prompt 進行轉換。- Python SDK 可直接接受
PIL.Image物件——不需要手動進行 Base64 編碼。 - 傳入原始 Base64 字串時,不要包含
data:image/jpeg;base64,前綴。
多圖像合成
從多張輸入圖片生成一張新圖片。CometAPI 支援兩種方式:方法 1:單一拼貼圖片
將多張來源圖片合併成一張拼貼圖,然後描述想要的輸出結果。

方法 2:多張獨立圖片(最多 14 張)
直接傳入多張圖片。Gemini 3 模型最多支援 14 張參考圖片(物件 + 角色):
4K 圖像生成
指定包含aspect_ratio 與 image_size 的 image_config,以輸出高解析度影像:
多輪影像編輯(聊天)
使用 SDK 的聊天功能來逐步精修影像:提示
Prompt 最佳化
Prompt 最佳化
請明確指定風格關鍵字(例如「cyberpunk、film grain、low contrast」)、長寬比、主體、背景、光線,以及細節層級。
Base64 格式
Base64 格式
使用原始 HTTP 時,請勿包含
data:image/png;base64, 前綴——只使用原始 Base64 字串即可。Python SDK 會透過 PIL.Image 物件自動處理這一點。強制輸出影像
強制輸出影像
將
"responseModalities" 僅設為 ["IMAGE"],即可保證輸出影像而不含文字。