Quatre agents, le même prompt, et personne ne partage

La promesse des agents multiples cache une vérité gênante : chacun recalcule tout dans son coin, sans rien partager avec ses voisins.
Le cache, vendu comme une optimisation généreuse, est surtout un péage déguisé sur une lenteur qu'on a nous-mêmes fabriquée.
Multiplier les agents identiques, c'est multiplier la même facture énergétique, pas diviser le travail.

Mini quiz : et vous, vous en êtes où ?

Trois questions, une réponse par clic et on enchaîne tout seul. À la fin, surprise.

1. Vous lancez plusieurs assistants IA sur une tâche. Votre réflexe ?

Je vérifie d'abord s'ils font des choses différentes ou la même chose
Je lance, on verra bien le résultat
Plus il y en a, mieux c'est, non ?

2. Un fournisseur vous facture moins cher la partie déjà lue, en mémoire. Vous pensez quoi ?

Je me demande pourquoi ce calcul existait au départ
Je prends la réduction sans trop réfléchir
Une réduction, c'est toujours bon à prendre

3. Une capture d'écran de vingt agents qui tournent ensemble, ça vous évoque quoi ?

De la poudre aux yeux tant qu'on ne voit pas le travail réel
C'est impressionnant, sûrement efficace
Je veux le même pour montrer à mes collègues

Le meilleur pour la fin : on a déniché un article au hasard rien que pour vous. Vous allez adorer le lire !

🎲 Surprenez-moi, j'y vais !

Efficient NLP, 21/06/2026

Un soir, j'ai lancé quatre assistants identiques sur la même tâche, et les quatre ont relu la même consigne chacun dans son coin, comme s'ils ne s'étaient jamais croisés.

On nous promet des essaims d'agents, des armées de robots-assistants qui bûchent en parallèle pendant qu'on boit son café. Jolie image. Sauf que sous le capot, lancer quatre agents avec la même consigne, c'est relire quatre fois le même texte. Le modèle ne se souvient de rien d'un appel à l'autre. Et les serveurs ont trouvé comment vous facturer cette amnésie.

Quatre robots, une seule consigne, zéro mémoire

Le mot à la mode, c'est l'essaim. On ne lance plus un assistant, on en lance quatre, dix, cinquante. La promesse a de l'allure. Des dizaines d'intelligences qui travaillent en parallèle pendant que vous regardez ailleurs. Sauf que ces intelligences ne se parlent pas. Vous leur donnez à tous la même consigne de départ, le même cadre, le même mode d'emploi. Chacun le relit en entier, de la première à la dernière ligne. Aucun ne se tourne vers son voisin pour dire « le préambule, je l'ai déjà lu, passe ». Le modèle qui anime ces agents n'a pas de mémoire entre deux appels. Il a une ardoise. À chaque tâche, on l'efface et on repart de zéro. C'est une amnésie de naissance, pas une panne. On a construit ces outils pour qu'ils oublient tout dès qu'ils ont fini. Du coup, multiplier les agents revient à multiplier les relectures. Le même texte, quatre fois. Le progrès, version photocopieuse coincée sur la touche « répéter ».

Le serveur garde la copie, et vous présente l'addition

Voilà où ça devient malin. Puisque les modèles relisent sans cesse les mêmes débuts de consigne, quelqu'un a eu une idée. Garder cette lecture en mémoire. Quand le serveur reconnaît un préambule qu'il a déjà traité, il ne le retravaille pas de zéro. Il ressort la copie qu'il avait mise de côté. Dans le métier, on appelle ça le cache, le fait de garder sous le coude un travail déjà fait. Sur le papier, tout le monde gagne. Le serveur peine moins, vous attendez moins, la planète respire un peu. Sauf que ce cadeau a une facture. Les fournisseurs d'intelligence artificielle facturent désormais la partie déjà lue moins cher que la première lecture. Vous entendez la musique ? On vous vend une remise sur un calcul qu'on n'aurait jamais dû refaire. C'est le coup du garagiste qui vous remercie de revenir, parce qu'il avait gardé vos pièces. Le cache n'est pas une générosité. C'est un péage installé sur une route qu'on a rendue plus longue exprès. La lenteur vient de la conception même de ces modèles. L'amnésie est dans leur ADN. Et au lieu de la soigner, on l'a transformée en grille tarifaire. Plus vous répétez, plus vous payez, un peu moins cher la deuxième fois. C'est présenté comme une optimisation. C'est surtout un excellent modèle économique.

L'essaim d'agents, ce gaspillage qu'on appelle progrès

Parlons de la note qui ne s'affiche jamais à l'écran. L'énergie. Relire un texte, pour une machine, ça consomme. Pas grand-chose pour une fois. Énormément quand on multiplie. Quatre agents qui relisent la même consigne, c'est quatre fois la dépense pour un résultat de lecture identique. On a transformé la redondance en méthode de travail. Et on a appelé ça innovation. Le secteur adore le mot scalabilité, la capacité à grandir sans limite. Traduction : faire la même chose mille fois plus souvent. Personne ne se demande si refaire mille fois la même lecture est une bonne idée. La question gêne, alors on la range. À la place, on célèbre l'essaim, on poste des captures d'écran de vingt agents qui tournent ensemble. C'est impressionnant comme un feu d'artifice. Et aussi utile, une fois la fumée dissipée. Le vrai luxe, aujourd'hui, ce n'est pas de lancer cent agents. C'est d'en lancer un seul qui se souvient de ce qu'il vient de lire. Mais ça, ça ne fait pas une belle démonstration. Ça fait juste de l'ingénierie sobre. Et la sobriété, dans ce milieu, ne remplit aucune salle de conférence.

Réutiliser au lieu de recalculer

Alors on fait quoi. On arrête de fantasmer l'essaim et on regarde la mécanique. La bonne nouvelle, c'est que garder la lecture en mémoire marche vraiment. Quand c'est bien fait, on ne paie le préambule qu'une fois. Le reste suit. La mauvaise nouvelle, c'est qu'il faut le réclamer, le régler, y penser. Ce n'est pas automatique, parce qu'une amnésie qui rapporte n'est pas pressée de disparaître. La leçon de cette vidéo d'Efficient NLP tient en une phrase. Avant de multiplier les agents, demandez-vous si vous multipliez le travail ou juste la facture. Un agent qui réutilise vaut mieux que quatre qui recommencent. Ce n'est pas spectaculaire. C'est juste moins bête. Et par les temps qui courent, dans ce secteur, « moins bête » ressemble déjà à une révolution.

Questions fréquentes

Faut-il vraiment s'inquiéter de ce recalcul ?

Pas pour une requête isolée, le coût reste minuscule. Le problème naît de l'échelle. Quand des millions d'agents relisent les mêmes consignes des millions de fois, la facture et la dépense d'énergie deviennent réelles. Ce n'est pas un drame individuel, c'est un gâchis collectif qu'on a fini par trouver normal.

Le cache, c'est une arnaque ou une bonne chose ?

Les deux. Techniquement, garder la lecture en mémoire fait gagner du temps et de l'argent, c'est utile. Moralement, facturer une remise sur un calcul inutile reste cocasse. Profitez du cache, il existe pour de bonnes raisons. Mais ne remerciez personne de vous épargner un effort qu'on a inventé.

Lancer plusieurs agents, c'est donc inutile ?

Non, quand ils font des choses différentes. Un essaim qui se répartit des tâches distinctes a du sens. Un essaim de clones qui relisent la même consigne pour produire la même chose, beaucoup moins. La vraie question n'est jamais le nombre d'agents. C'est de savoir s'ils travaillent ou s'ils se recopient.

Sources consultées : Efficient NLP, Reddit