Sakana fugu : Orchestrer plusieurs LLM depuis une seule API

Q: Comment Sakana Fugu apprend à coordonner (TRINITY et Conductor)

La magie du système repose sur deux papiers acceptés à ICLR 2026. La première approche, TRINITY, entraîne un coordinateur LLM léger à assigner dynamiquement des rôles parmi trois archétypes : Thinker (génère des hypothèses), Worker (exécute des sous-tâches), Verifier (contrôle la cohérence). La composition optimale est inférée à partir de la requête entrante, pas préprogrammée.

Q: Intégration API : zéro migration requise

C'est l'argument commercial le plus fort de Sakana : si votre code tourne avec l'API OpenAI, il tourne avec Fugu sans modification. Même format de requête, même structure de réponse, même gestion du streaming. Le changement se résume à pointer base_url vers les serveurs Sakana et à remplacer la clé API.

Q: Pricing, disponibilité et limitations à connaître

Sakana propose deux modèles de facturation. En abonnement mensuel : Standard à 20 $/mois pour un usage léger, Pro à 100 $/mois (10× le baseline) pour des sessions hebdomadaires intensives, Max à 200 $/mois (30× le baseline) pour les workloads longs et continus. En pay-as-you-go, Fugu standard facture au tarif du modèle sous-jacent le plus élevé du pool mobilisé — jamais de tarification additive sur chaque appel de modèle. Fugu Ultra est tarifé directement : 5 $ par million de tokens en entrée, 30 $ en sortie, avec les inputs cachés à 0,50 $/M. Au-delà de 272 000 tokens de contexte, les tarifs sont doublés.

Le 22 juin 2026, Sakana AI a mis fin à une idée reçue : celle selon laquelle le progrès en intelligence artificielle passe obligatoirement par des modèles toujours plus gros. La start-up tokyoïte a lancé Sakana Fugu, un système qui ne concurrence pas GPT-5.5, Claude Opus ou Gemini — il les recrute. Derrière une unique API compatible OpenAI se cache un chef d’orchestre entraîné à coordonner une flotte entière de LLM frontière selon la nature exacte de la tâche. Un changement de paradigme discret, mais aux implications considérables pour les développeurs qui dépendent aujourd’hui d’un fournisseur unique.

La limite du modèle unique : pourquoi l’orchestration change tout

Depuis deux ans, le réflexe de l’industrie est de choisir un LLM et de s’y tenir. C’est simple à intégrer, prévisible à budgétiser — et profondément inefficace. GPT-5.5 excelle en rédaction longue mais ralentit sur le code système. Claude Opus 4.8 est remarquable pour le raisonnement multi-étapes mais coûteux à l’échelle. Gemini 3.1 Pro domine les tâches multimodales. Aucun modèle ne gagne partout.

Le résultat concret : les équipes empilent des adaptateurs, des prompts spécialisés, des fallbacks maison. Le model routing est devenu un métier à part entière dans les startups IA sérieuses — avant même d’avoir écrit une ligne de logique métier. Sakana Fugu intègre ce routing au niveau du modèle lui-même, en le rendant appris plutôt que codé.

# Sans orchestration : choisir à la main selon la tâche
if task_type == "code_review":
    client = openai.Client()  # GPT-5.5
elif task_type == "long_reasoning":
    client = anthropic.Anthropic()  # Claude Opus
elif task_type == "multimodal":
    client = google.generativeai  # Gemini
# Maintenance cauchemardesque...

# Avec Sakana Fugu : un seul endpoint, routing automatique
client = openai.OpenAI(
    api_key="sk-sakana-...",
    base_url="https://api.sakana.ai/v1"
)
response = client.chat.completions.create(
    model="fugu-ultra-20260615",
    messages=[{"role": "user", "content": task}]
)

Le gain n’est pas seulement opérationnel. Il touche aussi à la résilience : si OpenAI subit une panne ou si Anthropic révise ses tarifs, Fugu reroute sans intervention humaine. Un argument qui a du poids depuis les disruptions réglementaires de juin 2026.

Comment Sakana Fugu apprend à coordonner (TRINITY et Conductor)

La magie du système repose sur deux papiers acceptés à ICLR 2026. La première approche, TRINITY, entraîne un coordinateur LLM léger à assigner dynamiquement des rôles parmi trois archétypes : Thinker (génère des hypothèses), Worker (exécute des sous-tâches), Verifier (contrôle la cohérence). La composition optimale est inférée à partir de la requête entrante, pas préprogrammée.

La seconde approche, Conductor, pousse l’idée plus loin via du renforcement. Le conducteur apprend à concevoir des stratégies de communication entre agents en langage naturel — il génère littéralement les prompts qui feront coopérer les LLM du pool. Ce n’est pas du prompt engineering humain : c’est le modèle qui l’invente, par essai-erreur, sur des milliers de scénarios d’entraînement.

# Structure interne (simplifiée) d'une session Fugu Ultra
# Ce code n'est pas exposé à l'utilisateur ; il illustre le mécanisme

class FuguOrchestrator:
    ROLES = ["Thinker", "Worker", "Verifier"]

    def route(self, task: str) -> list[dict]:
        # Le coordinateur (7B paramètres) génère le plan
        plan = self.conductor.plan(task)
        # Exemple de plan généré :
        # [
        #   {"role": "Thinker", "model": "claude-opus-4-8", "subtask": "décomposer le problème"},
        #   {"role": "Worker",  "model": "gpt-5-3-codex",   "subtask": "implémenter la solution"},
        #   {"role": "Verifier","model": "gemini-3-1-pro",  "subtask": "valider l'exactitude"}
        # ]
        return plan

    def synthesize(self, results: list[str]) -> str:
        return self.conductor.merge(results)

Le conductor lui-même ne pèse que 7 milliards de paramètres. Sa légèreté est intentionnelle : il doit ajouter le minimum de latence possible au pipeline tout en prenant des décisions d’orchestration qualitatives. En pratique, l’overhead de coordination est de l’ordre de quelques centaines de millisecondes — invisible pour un utilisateur humain, négligeable dans un pipeline automatisé.

Fugu vs Fugu Ultra : choisir la bonne variante

Sakana Fugu se décline en deux variantes aux profils radicalement différents. Fugu standard équilibre performance et latence : il convient aux tâches du quotidien — revues de code, chatbots réactifs, génération de contenu structuré. Il est économique parce qu’il mobilise un pool de modèles restreint, en privilégiant la vitesse de réponse sur l’exhaustivité de la délibération.

Fugu Ultra (identifiant fugu-ultra-20260615) coordonne un pool élargi d’experts pour des problèmes complexes et multi-étapes. Les résultats sont frappants : lors de séances de reproduction d’articles académiques, Fugu Ultra a conduit l’intégralité du cycle — lecture du papier, implémentation, évaluation, analyse des écarts — en environ quatre heures, de façon entièrement autonome. C’est le modèle à choisir pour l’audit de sécurité, les compétitions Kaggle, ou toute tâche où la qualité du résultat prime sur le coût unitaire.

import openai

# Fugu standard — tâche quotidienne, latence prioritaire
def review_pr(diff: str) -> str:
    client = openai.OpenAI(
        api_key="sk-sakana-...",
        base_url="https://api.sakana.ai/v1"
    )
    return client.chat.completions.create(
        model="fugu",  # variante équilibrée
        messages=[
            {"role": "system", "content": "Tu es un reviewer senior Python."},
            {"role": "user",   "content": f"Revue de code :n{diff}"}
        ],
        max_tokens=2048
    ).choices[0].message.content

# Fugu Ultra — tâche complexe, qualité prioritaire
def full_security_audit(codebase: str) -> str:
    return client.chat.completions.create(
        model="fugu-ultra-20260615",
        messages=[
            {"role": "user", "content": f"Audit de sécurité complet :n{codebase}"}
        ],
        max_tokens=8192
    ).choices[0].message.content

Fugu standard permet également d’exclure des fournisseurs spécifiques via la console — pratique pour les organisations soumises à des contraintes RGPD ou de localisation des données. Fugu Ultra, en revanche, exige un pool fixe pour garantir ses performances : l’exclusion de fournisseurs n’est pas supportée dans cette variante.

Intégration API : zéro migration requise

C’est l’argument commercial le plus fort de Sakana : si votre code tourne avec l’API OpenAI, il tourne avec Fugu sans modification. Même format de requête, même structure de réponse, même gestion du streaming. Le changement se résume à pointer base_url vers les serveurs Sakana et à remplacer la clé API.

# Migration depuis OpenAI vers Sakana Fugu
# Avant :
import openai
client = openai.OpenAI(api_key="sk-openai-...")
model = "gpt-5-5"

# Après (migration complète) :
client = openai.OpenAI(
    api_key="sk-sakana-xxxxxxxxxxxx",
    base_url="https://api.sakana.ai/v1"
)
model = "fugu-ultra-20260615"  # ou "fugu" pour la variante standard

# Tout le reste du code est identique
stream = client.chat.completions.create(
    model=model,
    messages=messages,
    stream=True
)
for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="")

Fugu est également disponible via OpenRouter, Vercel AI Gateway et Creao, ce qui facilite l’intégration dans les infrastructures existantes sans compte Sakana direct. Pour les équipes utilisant des frameworks comme LangChain ou LlamaIndex, la compatibilité OpenAI signifie que les wrappers existants fonctionnent nativement — un détail qui épargne des jours d’adaptation.

Les frameworks multi-agents comme CrewAI ou LangGraph peuvent d’ailleurs tirer un bénéfice immédiat de Fugu : plutôt que de spécifier un modèle LLM dans chaque agent, on délègue à Fugu le choix du modèle optimal pour chaque sous-tâche, réduisant la configuration à maintenir.

Benchmarks réels : Fugu Ultra face aux modèles frontière

Les benchmarks publiés par Sakana comparent Fugu Ultra contre les meilleurs modèles individuels disponibles en juin 2026 : GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro. Sur 11 benchmarks testés, Fugu Ultra arrive premier sur 10. Les chiffres clés :

# Résultats benchmarks Sakana Fugu (juin 2026)
# Source : sakana.ai/fugu — rapport technique arXiv:2606.21228

benchmarks = {
    "SWE Bench Pro":          {"Fugu": 59.0,  "Fugu Ultra": 73.7,  "meilleur_solo": 67.2},
    "LiveCodeBench":          {"Fugu": 92.9,  "Fugu Ultra": 93.2,  "meilleur_solo": 91.8},
    "GPQA Diamond":           {"Fugu": 95.5,  "Fugu Ultra": 95.5,  "meilleur_solo": 93.1},
    "Humanity's Last Exam":   {"Fugu": 47.2,  "Fugu Ultra": 50.0,  "meilleur_solo": 44.3},
}
# SWE Bench Pro mesure la résolution de vrais bugs GitHub
# LiveCodeBench = problèmes de programmation compétitive récents
# GPQA Diamond = questions scientifiques de niveau doctorat
# Humanity's Last Exam = questions cross-disciplinaires difficiles

En pratique, un ingénieur logiciel ayant testé Fugu Ultra en revue de code rapporte qu’il détecte plus de vingt bugs contre environ trois pour GPT-5.5 seul sur le même diff. La différence s’explique : le modèle Verifier du pool re-lit le code après que le Worker a généré ses suggestions, attrapant ce que le premier passage rate. C’est la puissance du regard multiple automatisé.

Pour les développeurs qui suivent le classement LLM en temps réel, Fugu Ultra repositionne la compétition sur un plan méta : plutôt que de parier sur le meilleur modèle du moment, on orchestre l’ensemble du peloton.

Cas d’usage concrets pour développeurs web et DevOps

Au-delà des benchmarks académiques, Fugu Ultra brille sur des tâches d’ingénierie réelles. Voici quelques patterns déjà documentés par des équipes en production.

Audit de sécurité autonome : Fugu Ultra mène en autonomie une évaluation complète d’une application web — reconnaissance, détection XSS et SQLi, test d’authentification, rapport formaté — en une seule invocation. Ce qui prendrait deux jours à un consultant peut être fait en quelques heures, avec un rapport structuré et reproductible.

# Exemple : pipeline CI intégrant Fugu Ultra pour l'audit
import subprocess, openai, json

client = openai.OpenAI(
    api_key="sk-sakana-...",
    base_url="https://api.sakana.ai/v1"
)

def audit_on_pr(diff_file: str) -> dict:
    diff = open(diff_file).read()
    response = client.chat.completions.create(
        model="fugu-ultra-20260615",
        messages=[{
            "role": "system",
            "content": (
                "Tu es un auditeur de sécurité expert. "
                "Analyse ce diff pour : injections SQL, XSS, SSRF, "
                "secrets hardcodés, élévations de privilèges. "
                "Retourne un JSON {issues: [{severity, type, line, detail}]}."
            )
        }, {
            "role": "user",
            "content": diff
        }],
        response_format={"type": "json_object"}
    )
    return json.loads(response.choices[0].message.content)

# Bloquer la PR si sévérité CRITICAL détectée
results = audit_on_pr("pr.diff")
critical = [i for i in results["issues"] if i["severity"] == "CRITICAL"]
if critical:
    print(f"BLOQUÉ : {len(critical)} problème(s) critiques")
    exit(1)

Recherche autonome multi-sources : un chercheur en industrie utilise Fugu Ultra pour analyser vingt papiers et cinquante brevets simultanément, produire un état de l’art structuré et identifier les zones de chevauchement de propriété intellectuelle. Résultat en quelques heures contre trois à quatre jours en lecture manuelle.

Orchestration d’agents long-contexte : pour les équipes qui déploient des agents en production, Fugu Ultra maintient une cohérence de persona sur de très longues sessions — un problème notoire des LLM uniques qui dérivent après quelques milliers de tokens.

Pricing, disponibilité et limitations à connaître

Sakana propose deux modèles de facturation. En abonnement mensuel : Standard à 20 $/mois pour un usage léger, Pro à 100 $/mois (10× le baseline) pour des sessions hebdomadaires intensives, Max à 200 $/mois (30× le baseline) pour les workloads longs et continus. En pay-as-you-go, Fugu standard facture au tarif du modèle sous-jacent le plus élevé du pool mobilisé — jamais de tarification additive sur chaque appel de modèle. Fugu Ultra est tarifé directement : 5 $ par million de tokens en entrée, 30 $ en sortie, avec les inputs cachés à 0,50 $/M. Au-delà de 272 000 tokens de contexte, les tarifs sont doublés.

Deux limitations importantes à avoir en tête avant d’adopter. Premièrement, Fugu n’est pas disponible dans l’Union Européenne ni dans l’EEA au lancement — Sakana invoque la conformité RGPD en cours. Pour les équipes françaises, l’accès passe par un VPN ou une infrastructure hors UE, ce qui crée une friction réelle pour la mise en conformité. Une roadmap d’expansion européenne est mentionnée sans date précise.

Deuxièmement, Fugu Ultra ne permet pas d’exclure des fournisseurs spécifiques : le pool est fixe pour garantir les performances garanties contractuellement. Les organisations avec des restrictions strictes sur les fournisseurs cloud américains devront se contenter de Fugu standard avec exclusions configurées, au prix d’une dégradation des performances sur les tâches complexes.

À noter enfin : Sakana s’engage à intégrer de nouveaux modèles frontière dans un délai de deux semaines après leur disponibilité publique, ce qui rend la flotte continuellement à jour sans intervention de l’utilisateur.

Ce que Sakana Fugu change vraiment pour les développeurs

Sakana Fugu n’est pas un modèle de plus dans une liste déjà longue. C’est une réponse architecturale à une question que personne ne posait clairement : et si la meilleure IA n’était pas un modèle unique, mais une équipe de modèles bien dirigée ? La réponse empirique — 73,7 % sur SWE Bench Pro, vingt bugs détectés contre trois — est difficile à ignorer.

Pour un développeur qui utilise aujourd’hui l’API OpenAI, la migration est littéralement une ligne de code. Le risque d’adoption est proche de zéro. Ce qui reste à observer : comment Sakana tiendra l’engagement de performance quand les modèles du pool évolueront, et surtout quand la disponibilité européenne deviendra réalité pour les équipes soumises au RGPD.

À court terme, Fugu redéfinit ce que signifie « choisir un LLM » — non plus un choix de fournisseur, mais un choix d’orchestration. Une distinction qui pourrait bien devenir le standard de l’industrie dans les douze prochains mois.

Sources

WP Admin Lab

Architecte web full-stack. WordPress, performance, data et sécurité. Notes de terrain, tests reproductibles et retours d'expérience.

Sakana Fugu : orchestrer plusieurs LLM depuis une seule API

La limite du modèle unique : pourquoi l’orchestration change tout

Comment Sakana Fugu apprend à coordonner (TRINITY et Conductor)

Fugu vs Fugu Ultra : choisir la bonne variante

Intégration API : zéro migration requise

Benchmarks réels : Fugu Ultra face aux modèles frontière

Cas d’usage concrets pour développeurs web et DevOps

Pricing, disponibilité et limitations à connaître

Ce que Sakana Fugu change vraiment pour les développeurs

Sources

Commentaires (0)

Laisser un commentaire

Annuler la réponse

La limite du modèle unique : pourquoi l’orchestration change tout

Comment Sakana Fugu apprend à coordonner (TRINITY et Conductor)

Fugu vs Fugu Ultra : choisir la bonne variante

Intégration API : zéro migration requise

Benchmarks réels : Fugu Ultra face aux modèles frontière

Cas d’usage concrets pour développeurs web et DevOps

Pricing, disponibilité et limitations à connaître

Ce que Sakana Fugu change vraiment pour les développeurs

Sources

GPT-5.6 : tout ce que les fuites révèlent avant le lancement

AI Act : le guide de conformité avant la deadline du 2 août

VivaTech 2026 : Yann LeCun avait raison, les LLM ne sont pas le futur de l’intelligence artificielle

Commentaires (0)

Laisser un commentaire

Annuler la réponse