Harness IA : pourquoi l'infrastructure de l'agent compte plus que le modèle

Partie 1 — Vibe coding vs ingénierie agentique

Atecna — Dans notre premier échange, on conclue que le vrai point de départ, ce n’est pas l’outil, mais les critères d’évaluation. Allons plus loin : qu’est-ce qu’on construit, concrètement, autour de ces critères ?

Lamine Camara — On construit ce que j’appellerais l’infrastructure de l’agent. Il y a une équation qui résume 2026 : un agent IA, c’est un modèle plus un harness. Le modèle seul — Claude, GPT, peu importe — n’est pas un agent. C’est un moteur. Ce qui en fait un agent opérationnel, c’est tout ce qu’il y a autour : la boucle qui lui fait appeler des outils, la mémoire, les garde-fous, et justement, les critères d’évaluation.

Et le point contre-intuitif, c’est que ce harness compte souvent plus que le modèle lui-même. On a vu des équipes prendre exactement le même modèle, ne changer que l’infrastructure autour, et passer du fond d’un classement au top 5 d’un benchmark. Le modèle n’a pas bougé d’un octet. Tout le gain venait du harness.

Atecna — Donc bien prompter ne suffit plus ?

Lamine Camara — Ça reste utile, mais ça plafonne vite. Une formule circule depuis début 2026 : « moins de prompt engineering, plus de harness engineering. » À partir d’un certain niveau, le gain marginal n’est plus dans la phrase qu’on tape — il est dans l’infrastructure qu’on met autour. C’est la suite logique de ce qu’on disait sur les critères d’évaluation : un critère d’évaluation, ce n’est pas un détail final, c’est une brique constitutive du harness.

Partie 2 — Les deux moitiés : guider et mesurer

Atecna — Et ce harness, il est fait de quoi ?

Lamine Camara — Pour l’essentiel, deux choses — et c’est là que beaucoup d’équipes se trompent.

La première moitié, ce sont les guides : tout ce qui anticipe, en amont. Des conventions, une architecture posée, un fichier d’instructions qui dit à l’agent « voilà comment on travaille ici ». Ça augmente la probabilité qu’il fasse bien du premier coup.

La deuxième moitié, ce sont les capteurs : tout ce qui mesure, en aval, une fois que l’agent a agi. Est-ce que les tests passent ? Est-ce que le linter est satisfait ? Est-ce que le critère d’évaluation est au vert ? Sans ça, l’agent répète les mêmes erreurs à l’infini, parce que rien ne lui signale qu’il s’est trompé.

Atecna — Et l’erreur fréquente, c’est laquelle ?

Lamine Camara — Tout le monde a foncé sur la première moitié. On a écrit des montagnes de fichiers d’instructions, de conventions, de prompts système — les guides. Et on a quasiment oublié les capteurs. Or un harness sans capteurs, c’est un agent à qui on donne des consignes mais qu’on ne mesure jamais. Les critères d’évaluation dont on parlait, ce sont précisément ces capteurs. C’est la moitié qu’on néglige alors que c’est la plus importante : c’est elle qui permet à l’agent de se corriger sans qu’on soit derrière lui en permanence.

Partie 3 — Tous les capteurs ne se valent pas.

Atecna — Mesurer, ça veut dire faire juger l’IA par une autre IA ?

Lamine Camara — Parfois, mais attention au piège. Il y a deux familles de capteurs.

Famille	Ce que c’est	Force	Limite
Déterministe	Linter, test unitaire, vérificateur de types, couverture	Rapide, quasi gratuit, fiable — un test qui passe, passe	Ne capte pas le « sens », seulement des règles
Basé sur l’IA	Un modèle juge le travail d’un autre (LLM-as-judge)	Riche, capte de la sémantique	Coûteux, non déterministe — le même code peut être jugé différemment deux fois

Mon conseil est sans ambiguïté : le déterministe d’abord, toujours. On ne construit pas ses fondations sur un juge qui change d’avis. L’IA qui juge l’IA, c’est un complément — jamais la base.

Atecna — Et ça suffit à garantir la qualité ?

Lamine Camara — Soyons honnêtes : pas encore complètement. Il faut distinguer trois zones.

La qualité du code — duplication, complexité, style : c’est largement résolu, l’outillage existe depuis quinze ans.
L’architecture — les dépendances, la performance : c’est en cours, on a des techniques.
Le comportement — est-ce que le code fait vraiment ce qu’on lui a demandé, fonctionnellement : ça reste un problème ouvert.

C’est exactement la question que je posais la dernière fois : savoir si un système fait réellement ce qu’on attend de lui. Des tests verts générés par l’IA ne le garantissent pas. On a encore beaucoup à faire là-dessus.

Atecna : Revenons sur la première zone, celle que vous dites résolue : comment garantit-on, concrètement, la qualité du code ?

Lamine Camara : Avec des capteurs déterministes, rendus automatiques et bloquants. Et si c’est la zone résolue, c’est précisément parce que ces outils existent déjà. Un linter pour le style, un vérificateur de types, des seuils de complexité et de duplication, une couverture minimale. Rien de neuf en soi. Ce qui change avec l’agent IA, c’est qu’on branche ces capteurs directement dans sa boucle : il écrit, le capteur mesure, il corrige — sans qu’on soit derrière lui.

La règle, c’est de ne jamais s’en remettre à la bonne volonté, ni de l’humain ni de l’agent : tout ce qui est mesurable part dans l’intégration continue, en mode bloquant. Si le seuil n’est pas tenu, ça ne passe pas. Et chaque fois qu’une faiblesse récurrente échappe aux capteurs en place, on en ajoute un — c’est la boucle dont on parlait : on durcit le harness erreur après erreur.

Le seul piège, c’est de confondre les deux. Un capteur déterministe garantit que les règles sont tenues — propre, lisible, maintenable. Pas que le code fait la bonne chose. Ça, le « est-ce que ça fait vraiment ce qu’on attend », c’est la troisième zone, et elle reste ouverte.

Partie 4 — Le harness ne supprime pas l’humain, il le redéploie.

Non. Une base de code propre, bien typée, avec des modules clairs, se prête très bien au harness. L’agent s’y repère, les capteurs sont faciles à brancher. Une vieille base enchevêtrée, sans frontières nettes, c’est beaucoup plus dur. Et c’est tout le paradoxe : le harness est le plus nécessaire là où il est le plus difficile à construire. Le legacy, c’est là qu’on en a le plus besoin, et c’est là que c’est le plus pénible.

Atecna : Et le rôle de l’humain dans tout ça ?

Lamine Camara : Il ne disparaît pas, il se déplace. La dernière fois je disais : l’IA accélère, mais elle ne se supervise pas elle-même. Le harness, c’est justement comment on supervise à grande échelle sans s’épuiser. L’idée, c’est une boucle de pilotage : chaque fois qu’une erreur revient, on ne la corrige pas à la main une énième fois — on ajoute un garde-fou, un guide ou un capteur, pour qu’elle ne revienne plus. Et on remonte d’un cran. L’humain reste sur ce qui compte : l’architecture, les arbitrages, le jugement. Le répétitif, le harness l’absorbe.

C’est aussi pour ça que l’IA est un amplificateur. Les études de terrain le montrent : une équipe solide va plus vite avec l’IA, une équipe désorganisée fait des dégâts plus vite. La vitesse augmente — et l’instabilité aussi, si rien ne l’encadre. Le harness, c’est la discipline qui décide de quel côté on tombe.

Partie 5 — Par où commencer, et un mot sur demain.

Atecna — Concrètement, par où on commence ?

Lamine Camara — Petit, et déterministe. Un capteur fiable dans votre intégration continue : un linter, un seuil de couverture qui bloque si on passe en dessous. Puis, dès qu’une erreur revient deux fois, vous ajoutez un guide pour l’anticiper. Vous itérez. Le point important : le harness n’est pas une configuration qu’on pose une fois. C’est une pratique continue, qui se construit erreur après erreur. Un investissement, pas un interrupteur.

Atecna : Et demain ?

Lamine Camara : La recherche commence à faire évoluer le harness tout seul. Il y a des travaux récents où un harness minimal s’améliore de lui-même, en boucle fermée, sans qu’on touche au modèle — et il finit par dépasser un harness conçu à la main par des humains. C’est fascinant. Mais soyons clairs : c’est de la recherche, pas votre quotidien de mardi matin. Pour l’immense majorité des équipes, le vrai chantier reste le même : construire les capteurs, mesurer, corriger.

Atecna : Un mot de conclusion ?

Lamine Camara : Le modèle est, en réalité, la plus petite partie de votre système. Ceux qui voient l’IA comme un simple générateur de code vont plafonner. Ceux qui la traitent comme un système à part entière — avec ses forces, ses limites, ses risques — et qui construisent puis améliorent sans cesse l’infrastructure autour, ceux-là vont créer un vrai avantage compétitif. C’est moins spectaculaire que de taper un prompt magique. Mais c’est ça, le métier qui vient. Et comme je le disais déjà : ça ne se gagne pas en quelques semaines — ça se gagne en quelques trimestres d’ingénierie sérieuse.

Vous avez des questions ou souhaitez discuter de projets IA ?

N’hésitez pas à contacter les experts d’Atecna.

Agent IA en 2026 : pourquoi le harness compte plus que le modèle ?

Partie 1 — Vibe coding vs ingénierie agentique

Partie 2 — Les deux moitiés : guider et mesurer

Partie 3 — Tous les capteurs ne se valent pas.

Partie 4 — Le harness ne supprime pas l’humain, il le redéploie.

Partie 5 — Par où commencer, et un mot sur demain.

L’ingénierie agentique expliquée — ce qui change vraiment pour les développeurs

Professionnel augmenté : L’humain au cœur de l’IA