Guida alla chiamata dei modelli immagine Gemini

Questa guida mostra come usare i modelli immagine Gemini tramite CometAPI utilizzando il Google Gen AI SDK. Copre:

Generazione text-to-image
Modifica image-to-image
Composizione multi-immagine
Salvataggio delle immagini generate

Base URL: https://api.cometapi.com
Installa l’SDK: pip install google-genai (Python) o npm install @google/genai (Node.js)

Configurazione

Inizializza il client con il base URL di CometAPI:

from google import genai
from google.genai import types
import os

COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=COMETAPI_KEY,
)

Generazione text-to-image

Genera un’immagine da un prompt di testo e salvala in un file.

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("generated_image.png")
        print("Image saved to generated_image.png")

Struttura della risposta: I dati dell’immagine si trovano in candidates[0].content.parts, che può contenere parti di testo e/o immagini:

{
  "candidates": [{
    "content": {
      "parts": [
        { "text": "Here is your image..." },
        {
          "inlineData": {
            "mimeType": "image/png",
            "data": "<base64-encoded-image>"
          }
        }
      ]
    }
  }]
}

Generazione image-to-image

Carica un’immagine di input e trasformala con un prompt testuale.

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

# Load the source image
source_image = Image.open("source.jpg")

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=["Transform this into a watercolor painting", source_image],
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("watercolor_output.png")

L’SDK Python accetta direttamente oggetti PIL.Image — non è necessaria la codifica Base64 manuale.
Non includere il prefisso data:image/jpeg;base64, quando passi stringhe Base64 raw.

Composizione multi-image

Genera una nuova immagine a partire da più immagini di input. CometAPI supporta due approcci:

Metodo 1: Una singola immagine collage

Combina più immagini sorgente in un unico collage, quindi descrivi l’output desiderato.

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

collage = Image.open("collage.jpg")

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[
        "A model is posing and leaning against a pink BMW with a green alien keychain attached to a pink handbag, a pink parrot on her shoulder, and a pug wearing a pink collar and gold headphones",
        collage,
    ],
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.inline_data is not None:
        part.as_image().save("composition_output.png")

Metodo 2: Più immagini separate (fino a 14)

Passa più immagini direttamente. I modelli Gemini 3 supportano fino a 14 immagini di riferimento (oggetti + personaggi):

from google import genai
from google.genai import types
from PIL import Image
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

image1 = Image.open("image1.jpg")
image2 = Image.open("image2.jpg")
image3 = Image.open("image3.jpg")

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=["Merge the three images", image1, image2, image3],
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

for part in response.parts:
    if part.inline_data is not None:
        part.as_image().save("merged_output.png")

Generazione di immagini 4K

Specifica image_config con aspect_ratio e image_size per un output ad alta risoluzione:

from google import genai
from google.genai import types
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Da Vinci style anatomical sketch of a Monarch butterfly on textured parchment",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        image_config=types.ImageConfig(
            aspect_ratio="1:1",
            image_size="4K",
        ),
    ),
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        image.save("butterfly_4k.png")

Modifica di immagini multi-turno (chat)

Usa la funzionalità chat dell’SDK per perfezionare iterativamente le immagini:

from google import genai
from google.genai import types
import os

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": "https://api.cometapi.com"},
    api_key=os.environ.get("COMETAPI_KEY"),
)

chat = client.chats.create(
    model="gemini-3.1-flash-image-preview",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

## First turn: Generate
response = chat.send_message(
    "Create a vibrant infographic explaining photosynthesis as a recipe, styled like a colorful kids cookbook"
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        image.save("photosynthesis.png")

Suggerimenti

Ottimizzazione del Prompt

Specifica parole chiave di stile (ad es. “cyberpunk, film grain, low contrast”), aspect ratio, soggetto, sfondo, illuminazione e livello di dettaglio.

Formato Base64

Quando usi HTTP raw, non includere il prefisso data:image/png;base64, — usa solo la stringa Base64 raw. L’SDK Python gestisce questo automaticamente con oggetti PIL.Image.

Forzare l'output immagine

Imposta "responseModalities" su ["IMAGE"] soltanto per garantire l’output immagine senza testo.

Per maggiori dettagli, consulta la API Reference. Documentazione ufficiale: Gemini Image Generation

Gemini Image Understanding

Panoramica

Riferimento API

Guide all'integrazione

Librerie

Errori

Prezzi e fatturazione

Supporto

Guida alla chiamata dei modelli immagine Gemini

Configurazione

Generazione text-to-image

Generazione image-to-image

Composizione multi-image

Metodo 1: Una singola immagine collage

Metodo 2: Più immagini separate (fino a 14)

Generazione di immagini 4K

Modifica di immagini multi-turno (chat)

Suggerimenti

Panoramica

Riferimento API

Guide all'integrazione

Librerie

Errori

Prezzi e fatturazione

Supporto

​Configurazione

​Generazione text-to-image

​Generazione image-to-image

​Composizione multi-image

​Metodo 1: Una singola immagine collage

​Metodo 2: Più immagini separate (fino a 14)

​Generazione di immagini 4K

​Modifica di immagini multi-turno (chat)

​Suggerimenti

Configurazione

Generazione text-to-image

Generazione image-to-image

Composizione multi-image

Metodo 1: Una singola immagine collage

Metodo 2: Più immagini separate (fino a 14)

Generazione di immagini 4K

Modifica di immagini multi-turno (chat)

Suggerimenti