Guia para chamar modelos de imagem Gemini

Este guia demonstra como usar modelos de imagem Gemini via CometAPI usando o Google Gen AI SDK. Ele cobre:

Geração de texto para imagem
Edição de imagem para imagem
Composição com múltiplas imagens
Salvamento de imagens geradas

URL base: https://api.cometapi.com
Instale o SDK: pip install google-genai (Python) ou npm install @google/genai (Node.js)

Configuração

Inicialize o cliente com a URL base do CometAPI:

from google import genai
from google.genai import types
import os

COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=COMETAPI_KEY,
)

Geração de Text-to-Image

Gere uma imagem a partir de um prompt de texto e salve-a em um arquivo.

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("generated_image.png")
        print("Image saved to generated_image.png")

Estrutura da resposta: Os dados da imagem estão em candidates[0].content.parts, que podem conter partes de texto e/ou imagem:

{
  "candidates": [{
    "content": {
      "parts": [
        { "text": "Here is your image..." },
        {
          "inlineData": {
            "mimeType": "image/png",
            "data": "<base64-encoded-image>"
          }
        }
      ]
    }
  }]
}

Geração de Image-to-Image

Envie uma imagem de entrada e transforme-a com um prompt de texto.

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

# Load the source image
source_image = Image.open("source.jpg")

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=["Transform this into a watercolor painting", source_image],
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("watercolor_output.png")

O SDK Python aceita objetos PIL.Image diretamente — não é necessária codificação manual em Base64.
Não inclua o prefixo data:image/jpeg;base64, ao passar strings Base64 brutas.

Composição com Múltiplas Imagens

Gere uma nova imagem a partir de várias imagens de entrada. A CometAPI oferece suporte a duas abordagens:

Método 1: Uma única imagem em colagem

Combine várias imagens de origem em uma única colagem e, em seguida, descreva o resultado desejado.

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

collage = Image.open("collage.jpg")

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[
        "A model is posing and leaning against a pink BMW with a green alien keychain attached to a pink handbag, a pink parrot on her shoulder, and a pug wearing a pink collar and gold headphones",
        collage,
    ],
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.inline_data is not None:
        part.as_image().save("composition_output.png")

Método 2: Várias imagens separadas (até 14)

Passe várias imagens diretamente. Os modelos Gemini 3 oferecem suporte a até 14 imagens de referência (objetos + personagens):

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

image1 = Image.open("image1.jpg")
image2 = Image.open("image2.jpg")
image3 = Image.open("image3.jpg")

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=["Merge the three images", image1, image2, image3],
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.inline_data is not None:
        part.as_image().save("merged_output.png")

Resultado da geração com múltiplas imagens

Geração de Imagens em 4K

Especifique image_config com aspect_ratio e image_size para saída em alta resolução:

from google import genai
from google.genai import types
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Da Vinci style anatomical sketch of a Monarch butterfly on textured parchment",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        image_config=types.ImageConfig(
            aspect_ratio="1:1",
            image_size="4K",
        ),
    ),
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        image.save("butterfly_4k.png")

Edição de Imagem em Múltiplas Interações (Chat)

Use o recurso de chat do SDK para refinar imagens de forma iterativa:

from google import genai
from google.genai import types
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

chat = client.chats.create(
    model="gemini-3.1-flash-image-preview",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

# First turn: generate
response = chat.send_message(
    "Create a vibrant infographic explaining photosynthesis as a recipe, styled like a colorful kids cookbook"
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        image.save("photosynthesis.png")

# Second turn: refine
response = chat.send_message("Update this infographic to be in Spanish. Do not change any other elements.")

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        image.save("photosynthesis_spanish.png")

Dicas

Otimização de Prompt

Especifique palavras-chave de estilo (por exemplo, “cyberpunk, film grain, low contrast”), proporção de aspecto, assunto, plano de fundo, iluminação e nível de detalhe.

Formato Base64

Ao usar HTTP bruto, não inclua o prefixo data:image/png;base64, — use apenas a string Base64 bruta. O SDK Python lida com isso automaticamente com objetos PIL.Image.

Forçar Saída de Imagem

Defina "responseModalities" como ["IMAGE"] apenas para garantir saída de imagem sem texto.

Para mais detalhes, consulte a Referência da API. Documentação oficial: Gemini Image Generation

Gemini Image Understanding

Visão Geral

Referência da API

Guias de Integração

Erros

Preços e Faturamento

Suporte

Guia para chamar modelos de imagem Gemini

Configuração

Geração de Text-to-Image

Geração de Image-to-Image

Composição com Múltiplas Imagens

Método 1: Uma única imagem em colagem

Método 2: Várias imagens separadas (até 14)

Geração de Imagens em 4K

Edição de Imagem em Múltiplas Interações (Chat)

Dicas

Visão Geral

Referência da API

Guias de Integração

Erros

Preços e Faturamento

Suporte

​Configuração

​Geração de Text-to-Image

​Geração de Image-to-Image

​Composição com Múltiplas Imagens

​Método 1: Uma única imagem em colagem

​Método 2: Várias imagens separadas (até 14)

​Geração de Imagens em 4K

​Edição de Imagem em Múltiplas Interações (Chat)

​Dicas

Configuração

Geração de Text-to-Image

Geração de Image-to-Image

Composição com Múltiplas Imagens

Método 1: Uma única imagem em colagem

Método 2: Várias imagens separadas (até 14)

Geração de Imagens em 4K

Edição de Imagem em Múltiplas Interações (Chat)

Dicas