Le 19 mai 2026, sur scène à Google I/O, Sundar Pichai a eu droit à des soupirs d’impatience collectifs. Il venait d’annoncer Gemini 3.5 Pro et, dans la foulée, d’ajouter : « Give us until next month ». Ce mois est arrivé à expiration. Gemini 3.5 Pro est désormais disponible en disponibilité générale via l’API Gemini et Vertex AI — et ce qu’il apporte dépasse largement le « Flash en plus grand ».

Ce guide s’adresse aux développeurs qui construisent avec des LLMs : ceux qui ont déjà testé Gemini 2.5 Pro, ceux qui hésitent entre les grands modèles du moment, et ceux qui cherchent un angle concret pour exploiter 2 millions de tokens dans une vraie application. Pas de marketing, pas de benchmarks abstraits : du code qui tourne, des limites à connaître, et une grille de décision honnête.

Avant d’entrer dans le vif du sujet, une précision de contexte : Gemini 3.5 Pro ne remplace pas Gemini 3.5 Flash dans votre stack, il la complète. Flash reste le cheval de trait — rapide, économique, parfait pour 95 % des appels en production. Pro est le spécialiste des cas extrêmes : documents géants, raisonnement multi-étapes, analyses qui exigent une cohérence sur des centaines de milliers de tokens. Vous trouverez un état complet du classement LLM de ce mois pour situer où Pro se positionne dans le paysage global.

Ce qui change vraiment avec Gemini 3.5 Pro

La famille Gemini 3.x a une logique claire. Gemini 3 Flash (décembre 2025) a optimisé la vitesse. Gemini 3.1 Pro (février 2026) a repoussé le plafond du raisonnement et du contexte long. Puis Gemini 3.5 Flash a chamboulé les attentes en battant 3.1 Pro sur le code et les tâches agentiques tout en divisant presque par deux le coût — mais en régressant sur les benchmarks de raisonnement dur. Gemini 3.5 Pro est conçu pour fermer ce gap : hériter des améliorations agentiques de Flash, les combiner avec la profondeur de raisonnement de 3.1 Pro, et lever le plafond de contexte à 2 millions de tokens.

Sur le benchmark Humanity’s Last Exam — le test conçu pour résister aux LLMs — Gemini 3.1 Pro plafonnait à 44,4 %, Flash à 40,2 %. Gemini 3.5 Pro cible le palier des 50 %+, ce qui représente un bond significatif sur des tâches de synthèse complexe, de due diligence juridique ou d’analyse scientifique où une hallucination a un coût réel.

# Vérifier les modèles disponibles dans AI Studio via l'API Gemini
import google.generativeai as genai

genai.configure(api_key="VOTRE_CLE_API")

for m in genai.list_models():
    if "gemini-3" in m.name:
        print(f"{m.name} — input: {m.input_token_limit:,} tokens")

# Output attendu :
# models/gemini-3.5-pro — input: 2,000,000 tokens
# models/gemini-3.5-flash — input: 1,000,000 tokens
# models/gemini-3.1-pro — input: 1,000,000 tokens

La fenêtre de 2 millions de tokens : cas d’usage réels

Deux millions de tokens, c’est environ 1 500 pages de texte ou 30 000 lignes de code dans un seul appel API. Flash perd en cohérence sur les documents très longs ; Pro tient. Mais la fenêtre de contexte n’est utile que si le modèle exploite vraiment les informations situées à des centaines de milliers de tokens de distance — c’est ce que Google appelle l’amélioration du long-context recall, mesurée via le benchmark « needle in a haystack ».

Cas d’usage où 2M tokens change la donne concrètement :

  • Revue de code complète : ingérer l’intégralité d’un monorepo TypeScript (150 fichiers, 25 000 lignes) et demander une analyse de sécurité transversale, sans chunking.
  • Analyse contractuelle : traiter un appel d’offre public de 400 pages + ses 12 annexes en un seul prompt.
  • Migration de base de données : fournir le schema complet + tous les scripts de migration + les logs d’erreurs pour générer un plan de remédiation contextualisé.
  • Agents à longue durée de vie : accumuler plusieurs heures de transcriptions de réunion pour produire un résumé décisionnel sans perdre les détails des premières heures.
# Exemple : analyser une base de code complète avec Gemini 3.5 Pro
import google.generativeai as genai
import pathlib

genai.configure(api_key="VOTRE_CLE_API")
model = genai.GenerativeModel("gemini-3.5-pro")

# Lecture de tous les fichiers .py d'un projet
source_files = list(pathlib.Path("./mon_projet").rglob("*.py"))
code_corpus = "nn".join(
    f"# === {f} ===n{f.read_text()}" for f in source_files
)

prompt = f"""
Tu es un expert en sécurité Python. Analyse ce corpus de code et liste
toutes les vulnérabilités potentielles (injection, SSRF, exposition de secrets,
dépendances obsolètes). Format: JSON avec champ 'severity', 'file', 'line', 'description'.

{code_corpus}
"""

response = model.generate_content(prompt)
print(response.text)

Deep Think : le mode de raisonnement avancé

Deep Think est la fonctionnalité qui distingue le plus Gemini 3.5 Pro dans les scénarios exigeants. Il s’agit d’un mode de raisonnement itératif multi-chemins : au lieu de générer une réponse directement, le modèle explore plusieurs chaînes de déduction en parallèle, évalue leur cohérence interne, puis synthétise. C’est l’équivalent fonctionnel du extended thinking de Claude ou du reasoning effort de GPT-5.5, mais avec une intégration native dans l’API Gemini.

Deep Think est réservé aux abonnés Gemini Ultra (250 $/mois pour l’app grand public) et disponible via l’API avec un paramètre dédié. Il est particulièrement efficace pour : déduire des invariants mathématiques, construire des plans de migration en plusieurs étapes, et analyser des systèmes où les dépendances circulaires rendent la lecture linéaire insuffisante.

# Activer Deep Think via l'API Gemini (paramètre thinking_config)
import google.generativeai as genai
from google.generativeai import types

genai.configure(api_key="VOTRE_CLE_API")
model = genai.GenerativeModel("gemini-3.5-pro")

response = model.generate_content(
    "Conçois un schema de base de données normalisé pour un SaaS multi-tenant "
    "avec audit trail, soft delete et RBAC. Justifie chaque choix de normalisation.",
    generation_config=types.GenerationConfig(
        thinking_config=types.ThinkingConfig(thinking_budget=8192)
    )
)

# La réponse inclut les 'thinking_parts' (traces de raisonnement) si activé
for part in response.candidates[0].content.parts:
    if hasattr(part, 'thought') and part.thought:
        print("[Raisonnement interne]")
    else:
        print(part.text)

Le paramètre thinking_budget contrôle le nombre de tokens alloués à la réflexion interne (1 024 à 32 768 tokens). Plus le budget est élevé, meilleure est la qualité sur les problèmes complexes — mais le coût augmente proportionnellement. Pour les tâches simples, désactiver Deep Think (thinking_budget=0) reste plus économique que d’utiliser Gemini 3.5 Flash.

Tarification et accès : ce qu’il faut savoir avant de migrer

Google n’a pas encore publié la tarification officielle de Gemini 3.5 Pro au moment de cet article — l’annonce GA est fraîche. D’après les signaux des previews Vertex et la logique tarifaire historique de la gamme Pro (~10× Flash), on anticipe une fourchette de 12 à 20 $/million de tokens en entrée, 40 à 60 $/million en sortie. C’est comparable à Claude Opus 4.8 (15 $/30 $) et en dessous de GPT-5.5 Pro (20 $/60 $). Pour voir comment ces modèles se comparent en contexte de choix stratégique, consultez notre analyse des benchmarks de la génération Gemini précédente.

Pour accéder à Gemini 3.5 Pro :

  • Développeurs individuels : via aistudio.google.com, le modèle apparaît dans le sélecteur dès que l’API est disponible. Pas d’annonce officielle : il apparaît simplement.
  • Entreprises via Vertex AI : demander l’accès via le Model Garden (« gemini-3.5-pro ») ou contacter son CSM Google Cloud si déjà client Gemini Enterprise.
  • Prompt caching : les tokens mis en cache sont facturés à ~25 % du tarif d’entrée normal. Indispensable pour les agents qui réenvoient le même system prompt à chaque tour.
# Estimer le coût d'un appel Gemini 3.5 Pro avec caching
INPUT_PRICE_PER_M = 15.0   # USD / million tokens (estimation)
OUTPUT_PRICE_PER_M = 50.0  # USD / million tokens (estimation)
CACHE_DISCOUNT = 0.25      # 25% du tarif input pour les tokens cachés

def estimate_cost(input_tokens, output_tokens, cached_tokens=0):
    fresh_input = input_tokens - cached_tokens
    cost = (
        fresh_input * INPUT_PRICE_PER_M / 1_000_000
        + cached_tokens * INPUT_PRICE_PER_M * CACHE_DISCOUNT / 1_000_000
        + output_tokens * OUTPUT_PRICE_PER_M / 1_000_000
    )
    return round(cost, 6)

# Exemple : agent loop avec 500K tokens de contexte, dont 400K cachés
print(estimate_cost(
    input_tokens=500_000,
    output_tokens=2_000,
    cached_tokens=400_000
))
# ~$2.56 vs ~$8.60 sans caching

Migrer de Gemini 2.5 Pro : guide pas à pas

Si vous êtes déjà sur Gemini 2.5 Pro (ou 3.1 Pro), la migration vers 3.5 Pro est principalement un changement d’identifiant de modèle — l’API est rétrocompatible. Mais quelques points méritent attention :

1. Nommage du modèle. L’identifiant change de gemini-3.1-pro à gemini-3.5-pro (ou via Vertex AI : projects/PROJECT/locations/us-central1/publishers/google/models/gemini-3.5-pro). Pensez à externaliser cet identifiant dans une variable d’environnement dès le départ pour faciliter les futures migrations.

2. Limites de débit. Pendant la phase de lancement GA, les quotas par défaut sont souvent plus restrictifs qu’en régime stable. Implémentez un retry exponentiel avec jitter dès le départ.

3. Comportement sur les sorties longues. Gemini 3.5 Pro peut produire des réponses plus longues et plus structurées que ses prédécesseurs sur les prompts ouverts. Si vous parsez la sortie en JSON, renforcez votre validation de schéma.

# Migration : pattern recommandé avec identifiant de modèle externalisé
import os
import time
import google.generativeai as genai
from google.api_core.exceptions import ResourceExhausted

genai.configure(api_key=os.environ["GEMINI_API_KEY"])
MODEL_ID = os.environ.get("GEMINI_MODEL", "gemini-3.5-pro")
model = genai.GenerativeModel(MODEL_ID)

def call_with_retry(prompt, max_retries=5):
    for attempt in range(max_retries):
        try:
            return model.generate_content(prompt)
        except ResourceExhausted as e:
            if attempt == max_retries - 1:
                raise
            wait = (2 ** attempt) + (0.1 * attempt)  # backoff exponentiel
            print(f"Rate limit — attente {wait:.1f}s (tentative {attempt+1})")
            time.sleep(wait)

response = call_with_retry("Résume les enjeux du RGPD pour les agents IA en 2026.")
print(response.text)

Construire un agent IA avec Gemini 3.5 Pro et l’Antigravity CLI

Google a lancé l’Antigravity CLI le 18 juin 2026, remplaçant officiellement le Gemini CLI. C’est l’interface de référence pour orchestrer des workflows multi-étapes avec Gemini 3.5 Pro directement depuis le terminal — et le point d’entrée recommandé avant de passer à une intégration SDK complète. Pour une comparaison avec les autres frameworks d’orchestration d’agents, notre analyse des meilleurs frameworks agents IA en 2026 couvre LangChain, LlamaIndex et les alternatives légères.

# Installation de l'Antigravity CLI
npm install -g @google/antigravity

# Authentification
antigravity auth login

# Créer un agent basique avec Gemini 3.5 Pro
antigravity agent create 
  --name "code-reviewer" 
  --model gemini-3.5-pro 
  --system-prompt "Tu es un expert en revue de code Python senior. Analyse les PRs soumises, identifie les bugs, les anti-patterns et les problèmes de sécurité. Sois précis et actionnable." 
  --tools file_read,web_search,code_execute

# Lancer l'agent sur un fichier
antigravity run code-reviewer --input ./src/auth/middleware.py

L’Antigravity CLI intègre nativement le grounding Google Search — une différence majeure avec les frameworks tiers : l’agent peut vérifier des informations en temps réel sans configuration supplémentaire. Sur des workflows de vérification de conformité ou de veille technologique, c’est un avantage structurel. Notez que le grounding Search est facturé séparément (1,50 $/1 000 requêtes).

Comparatif honnête : Gemini 3.5 Pro vs GPT-5.5 vs Claude Opus 4.8

En juin 2026, trois modèles se disputent le segment « frontier raisonnement long-contexte » : Gemini 3.5 Pro, GPT-5.5 (ou GPT-5.6 si le lancement a eu lieu avant la fin du mois), et Claude Opus 4.8. Le choix ne se réduit pas à des benchmarks — il dépend de votre stack, de vos contraintes réglementaires et de votre pattern d’usage.

Gemini 3.5 Pro s’impose sur trois points : fenêtre de contexte (2M tokens, le plus large en GA), intégration Google Search native, et ancrage dans l’écosystème Google Cloud si vous êtes déjà sur Vertex. Il régresse légèrement par rapport à Flash sur les tâches agentiques simples et rapides.

Claude Opus 4.8 (Anthropic) reste la référence sur les instructions longues et complexes, l’analyse de code en profondeur et le suivi précis d’instructions imbriquées. Sa fenêtre de 200K tokens est plus petite que Pro, mais sa cohérence sur ce range est excellente. C’est le choix naturel pour les équipes déjà investies dans Claude Code ou l’écosystème Anthropic.

GPT-5.5/5.6 (OpenAI) domine les benchmarks de génération de frontend et dispose de l’écosystème le plus large en termes d’intégrations tierces. Son contexte de 1,05M tokens (ou 1,5M sur GPT-5.6) est en dessous de Gemini 3.5 Pro mais suffisant pour la majorité des cas d’usage.

# Heuristique de choix de modèle en production (juin 2026)
def select_model(task):
    """
    Retourne le modèle recommandé selon la nature de la tâche.
    """
    CRITERIA = {
        "long_context_over_1m": "gemini-3.5-pro",
        "agentic_with_search": "gemini-3.5-pro",
        "complex_instruction_following": "claude-opus-4-8",
        "code_review_deep": "claude-opus-4-8",
        "frontend_generation": "gpt-5.5",
        "general_coding": "gemini-3.5-flash",  # Pro overkill ici
        "high_volume_low_latency": "gemini-3.5-flash",
        "sovereign_eu_data": "mistral-large-3",  # RGPD, données en France
    }
    return CRITERIA.get(task, "gemini-3.5-flash")  # Flash par défaut

print(select_model("long_context_over_1m"))  # gemini-3.5-pro
print(select_model("code_review_deep"))     # claude-opus-4-8

Pour aller plus loin sur les stratégies de prompt qui maximisent les performances de ces modèles, notre guide sur les techniques avancées de prompt engineering pour LLMs reste l’une des ressources les plus complètes du blog.

Conclusion : quand passer à Gemini 3.5 Pro

Gemini 3.5 Pro n’est pas un modèle universel. Sa valeur est concentrée sur deux axes : les contextes dépassant le million de tokens, et les tâches de raisonnement dur où Deep Think fait la différence (analyse contractuelle, migrations complexes, due diligence technique). Pour tout le reste — les appels API à volume élevé, les agents réactifs, le code quotidien — Gemini 3.5 Flash reste imbattable en rapport qualité/prix.

La migration depuis Gemini 2.5 Pro ou 3.1 Pro est quasi transparente du point de vue API. Le vrai travail consiste à identifier les cas d’usage dans votre stack qui justifient le coût supplémentaire — et à implémenter le prompt caching dès le départ pour réduire la facture sur les agents à contexte répétitif.

Pour les équipes en cours de déploiement d’agents en production, les patterns de maîtrise des coûts détaillés dans notre guide sur le déploiement d’agents IA avec maîtrise du budget s’appliquent directement à Gemini 3.5 Pro — le caching, la sélection dynamique de modèle et les circuit-breakers sont devenus des réflexes d’architecture incontournables en 2026.


Sources :

G
WP Admin Lab

Architecte web full-stack. WordPress, performance, data et sécurité. Notes de terrain, tests reproductibles et retours d'expérience.