- 文生图
- 图生图编辑
- 多图合成
- 保存生成的图像
- 基础 URL:
https://api.cometapi.com - 安装 SDK:
pip install google-genai(Python)或npm install @google/genai(Node.js)
设置
使用 CometAPI 的基础 URL 初始化客户端:文本到图像生成
根据文本 Prompt 生成图像并将其保存到文件中。candidates[0].content.parts 中,其中可以包含文本和/或图像部分:
图像到图像生成
上传输入图像,并通过文本 Prompt 对其进行转换。- Python SDK 可直接接受
PIL.Image对象——无需手动进行 Base64 编码。 - 传递原始 Base64 字符串时,不要包含
data:image/jpeg;base64,前缀。
多图合成
从多张输入图片生成一张新图片。CometAPI 支持两种方式:方法 1:单张拼贴图
将多张源图片合并为一张拼贴图,然后描述期望的输出效果。

方法 2:多张独立图片(最多 14 张)
直接传入多张图片。Gemini 3 模型最多支持 14 张参考图片(物体 + 角色):
4K 图像生成
指定带有aspect_ratio 和 image_size 的 image_config 以输出高分辨率图像:
多轮图像编辑(聊天)
使用 SDK 的聊天功能逐步细化图像:提示
Prompt 优化
Prompt 优化
指定风格关键词(例如
"cyberpunk, film grain, low contrast")、宽高比、主体、背景、光照和细节级别。Base64 格式
Base64 格式
使用原始 HTTP 时,不要包含
data:image/png;base64, 前缀——仅使用原始 Base64 字符串。Python SDK 会通过 PIL.Image 对象自动处理这一点。强制输出图像
强制输出图像
将
"responseModalities" 仅设置为 ["IMAGE"],以保证只输出图像而不包含文本。