Il y a trois mois, un client m’a confie une mission qui resume bien l’epoque : « Construis-nous un agent IA qui surveille nos concurrents et nous envoie un resume chaque matin. » J’ai accepte, livre, et observe pendant douze semaines ce qui marchait vraiment et ce qui cassait. Alors, les agents IA autonomes : revolution ou hype ? La reponse honnete est : ni l’un ni l’autre, ou plutot les deux a la fois. Quelque chose de reel fonctionne, mais entoure d’un nuage de promesses intenables. Cet article tente de separer le signal du bruit, en partant de ce qui distingue techniquement un agent d’un simple grand modele de langage.

Un agent, ce n’est pas juste un LLM

Un grand modele de langage (LLM) prend du texte en entree et produit du texte en sortie. C’est une fonction puissante mais passive : il ne peut rien faire d’autre que predire le prochain mot. Un agent IA place ce modele au centre d’une boucle qui lui donne des moyens d’action sur le monde. La difference n’est donc pas dans le modele mais dans l’architecture qui l’entoure : capacite a appeler des outils, a memoriser, a planifier une suite d’etapes, et a decider de lui-meme quand il a termine. C’est cette autonomie operationnelle, et non une intelligence superieure, qui fait l’agent.

La distinction est concrete. Un script classique sait scraper douze sites concurrents. Mais il ne comprend pas qu’un rival a lance un nouveau produit, baisse ses prix de 15 % ou recrute massivement en data science, signal d’une reorientation strategique. Ces taches exigent une comprehension semantique, le coeur de competence d’un LLM. L’agent combine les deux : la robustesse d’un programme et le jugement contextuel du modele. On lui confie un objectif, pas une liste d’instructions, et on le laisse trouver le chemin.

Cette promesse a un revers immediat : en deleguant le comment au modele, on perd une partie du determinisme qui rendait les logiciels previsibles. Un agent qui choisit son chemin peut en choisir un mauvais. Toute l’ingenierie des agents consiste a recuperer cette previsibilite par d’autres moyens.

La boucle perception-raisonnement-action

Au coeur de tout agent se trouve une boucle simple a enoncer mais delicate a maitriser : percevoir, raisonner, agir, puis recommencer. L’agent observe l’etat courant (le contenu d’une page, le resultat d’un appel precedent, un message utilisateur), le modele raisonne sur ce qu’il convient de faire, l’agent execute l’action choisie, et le resultat devient la perception du tour suivant. La boucle se repete jusqu’a ce que l’objectif soit atteint ou qu’une condition d’arret se declenche.

Ce cycle transforme une reponse unique en comportement etendu dans le temps. C’est aussi sa principale source de fragilite. A chaque tour, le modele reinjecte le resultat du tour precedent ; si ce resultat est errone ou bruite, l’erreur se propage. Lors de ma mission, un concurrent a modifie la structure HTML de son site. Au lieu de signaler l’echec, l’agent a retente quatorze fois de scraper la meme page, consommant en une matinee plus de tokens qu’en une journee normale. Livree a elle-meme, la boucle ne savait pas s’arreter.

La lecon : une boucle d’agent n’est jamais complete sans conditions d’arret explicites (nombre maximal de tentatives, plafond de duree). La boucle donne la puissance ; les garde-fous la rendent utilisable.

L’appel d’outils, le pont vers le monde reel

L’appel d’outils, souvent designe par les termes anglais function calling ou tool calling, est le mecanisme qui permet a un modele de declencher du code externe. On decrit chaque outil au modele sous forme d’un schema : un nom, une description en langage naturel, et la liste typee des parametres attendus. Le modele ne lit pas du code ; il lit cette description et decide, selon le contexte, d’emettre une demande d’appel structuree, que l’application execute avant de renvoyer le resultat dans la boucle.

La qualite de ces descriptions est determinante : un schema flou pousse le modele a mal choisir ses outils ou a mal remplir ses parametres. Voici une definition d’outil, ici un scraper, exprimee en JSON, suivie du squelette de la boucle qui l’exploite :

{
  "name": "scrape_site",
  "description": "Recupere le contenu textuel d'une page concurrente. "
                 "A utiliser quand l'objectif demande des donnees fraiches d'un site.",
  "input_schema": {
    "type": "object",
    "properties": {
      "url":      { "type": "string",  "description": "URL de la page a analyser" },
      "rendu_js": { "type": "boolean", "description": "Forcer le rendu JavaScript" }
    },
    "required": ["url"]
  }
}

# Boucle agent simplifiee (pseudo-code)
messages = [objectif_utilisateur]
while True:
    reponse = modele.generer(messages, outils=OUTILS)
    if reponse.type == "fin":           # le modele juge la tache terminee
        break
    for appel in reponse.appels_outils:   # un ou plusieurs outils demandes
        resultat = executer(appel.nom, appel.parametres)
        messages.append(resultat)         # le resultat devient la perception suivante
    if tours > MAX_TOURS:                  # garde-fou anti-boucle
        raise ArretSecurite

La planification : decomposer pour ne pas se perdre

Un objectif un peu complexe ne se resout pas en un seul appel d’outil. L’agent doit le decomposer en sous-taches, les ordonner, et adapter son plan au fil des resultats. Le patron de conception le plus repandu est ReAct (Reasoning and Acting), qui entrelace explicitement le raisonnement et l’action : le modele formule une pensee (« je recupere d’abord la page, puis je compare avec la version d’hier »), agit, observe, puis reflechit de nouveau. Ce va-et-vient rend le comportement plus robuste qu’une planification rigide etablie d’avance.

La decomposition peut etre implicite, laissee au modele tour apres tour, ou explicite, structuree par le code. Dans mon projet de veille, j’ai separe les roles : un agent pour l’extraction, un autre pour l’analyse strategique, un troisieme pour la redaction. Cette specialisation reduit la surface d’erreur : un agent qui ne fait qu’une chose se trompe moins qu’un agent omniscient.

La planification autonome a toutefois ses limites. Plus l’horizon est long, plus le risque de derive augmente. En 2026, les agents les plus fiables sont ceux dont les taches sont decoupees en segments courts, verifiables et supervises, plutot que laisses en roue libre sur des heures.

La memoire : court terme, long terme et RAG

Un agent sans memoire repart de zero a chaque tour. On distingue deux horizons. La memoire de court terme, c’est la fenetre de contexte : tout ce que le modele a sous les yeux pendant une session, l’historique des messages et les resultats d’outils recents. Elle est limitee en taille et coute cher en tokens. La memoire de long terme persiste entre les sessions : l’agent ecrit des notes, des faits, des preferences dans un stockage externe qu’il pourra relire plus tard.

Pour donner acces a de grandes bases de connaissances sans tout charger dans le contexte, la technique dominante est le RAG (Retrieval-Augmented Generation, generation augmentee par recuperation). Plutot que de tout memoriser, l’agent recupere a la demande les fragments pertinents et les injecte dans son contexte juste avant de repondre. La fenetre reste legere tout en donnant l’illusion d’une memoire vaste.

La gestion de la memoire est un art du compromis. Trop de contexte : les couts explosent et le modele se noie dans le bruit. Trop peu : il oublie des elements cruciaux. Sur ma mission, c’est ce reglage qui a fait deraper les couts en deuxieme semaine : l’agent etait devenu bavard. Le correctif a ete un plafond de tokens par tache et un suivi quotidien du budget.

L’orchestration multi-agents, frameworks et protocoles

Quand un probleme depasse les capacites d’un seul agent, on peut en faire collaborer plusieurs. Un agent coordinateur delegue des sous-taches a des agents specialises, chacun avec son role, ses outils et sa memoire propre, puis agrege leurs resultats. C’est l’orchestration multi-agents. Elle apporte de la modularite, mais aussi de la complexite : plus il y a d’agents, plus il y a de points de defaillance et de tours factures.

Cote outillage, plusieurs frameworks structurent ce travail. J’ai retenu CrewAI plutot que LangGraph pour ma mission, pour une raison pragmatique : la courbe d’apprentissage. CrewAI permet de definir des agents avec des roles clairs en quelques lignes, ce qui convenait a un delai de deux semaines. LangGraph offre un controle plus fin du graphe d’execution, AutoGen de Microsoft mise sur la conversation entre agents.

L’evolution la plus structurante est l’apparition de protocoles ouverts. Le MCP (Model Context Protocol) standardise la facon dont un agent se connecte a des sources de donnees et a des outils externes, comme un port universel entre les modeles et le systeme d’information. Tant que chaque integration restait sur mesure, les agents demeuraient des prototypes ; des standards comme MCP sont la condition du passage a l’industrialisation.

Ce qui marche en 2026, et ce qui decoit

Apres trois mois en production, mon bilan est nuance mais clair. Plusieurs choses ont marche du premier coup. Le scraping, via une API specialisee, recuperait proprement le contenu meme sur les sites a rendu JavaScript. La detection des nouveaux produits par comparaison de deux versions d’une page s’est averee fiable. Et le rapport, en Markdown converti en PDF, a ete juge par le client « plus propre que ce qu’on faisait a la main ». Sur des taches bien cadrees, repetitives et a comprehension semantique, les agents tiennent leurs promesses.

Ce qui marche en 2026 partage un profil commun : perimetre etroit, criteres de succes verifiables, couts d’erreur recuperables. Veille concurrentielle, tri et resume de documents, assistance au codage sous supervision, extraction structuree depuis du texte libre : autant de cas ou l’agent fait gagner un temps reel. Sur ma mission, le temps quotidien est passe de plusieurs heures de travail manuel a une douzaine de minutes de relecture.

Ce qui decoit, c’est l’agent a tout faire, autonome sur des heures, cense remplacer un humain de bout en bout sans surveillance. Les demonstrations spectaculaires resistent rarement au passage en production. Plus l’horizon s’allonge et moins les criteres de reussite sont nets, plus l’agent flotte, accumule les erreurs et echoue de facon couteuse. Le fosse entre la demo et le quotidien reste, en 2026, la principale source de desillusion.

Les limites concretes : fiabilite, couts et securite

Les limites des agents ne sont pas theoriques, elles se mesurent en euros et en incidents. La premiere est l’accumulation d’erreurs : dans une boucle longue, une petite imprecision se repercute sur les tours suivants, et la fiabilite globale chute avec le nombre d’etapes. La deuxieme est l’hallucination. Mon agent a un jour signale un nouveau produit revolutionnaire chez un concurrent ; verification faite, c’etait un billet de blog de 2023. Le correctif a ete la verification croisee : chaque affirmation doit etre sourcee, et un second modele controle la coherence avant diffusion.

La troisieme limite est le cout en tokens : sans plafonds, un agent bavard ou bloque dans une boucle peut multiplier la facture du jour au lendemain. La quatrieme, plus serieuse, est la securite et la gestion des permissions. Un agent qui appelle des outils peut, s’il est mal cadre, declencher des actions irreversibles : envoyer un message, supprimer des donnees, appeler une API externe. Les actions difficilement reversibles doivent passer par une confirmation humaine explicite, jamais executees a l’aveugle.

C’est pourquoi la supervision humaine reste, en 2026, non negociable. Les agents en production qui fonctionnent gardent un humain dans la boucle : pour valider les actions sensibles, relire les sorties, intervenir quand l’agent derive. La conclusion de ma mission tient en une phrase : les agents IA, c’est comme le cloud en 2010, ca marche, mais il faut savoir ce qu’on fait. On commence simple, on l’eprouve, et on garde toujours la main.

Sources

W
WP Admin Lab

Architecte web full-stack. WordPress, performance, data et sécurité. Notes de terrain, tests reproductibles et retours d'expérience.