Autoresearch de Karpathy — les agents qui s'auto-améliorent

— Avant tout

C'est quoi autoresearch ?

Karpathy publie autoresearch en mars 2026 pour montrer une idée : les chercheurs en IA peuvent déléguer une partie de leur travail à des essaims d'agents IA qui font la recherche à leur place. Autoresearch, c'est la preuve de concept : tu donnes à un agent un mini-laboratoire, et il cherche tout seul comment faire mieux.

Concrètement : le repo contient un modèle GPT miniature qui s'entraîne en 5 minutes sur un seul GPU. L'agent IA peut modifier le code d'entraînement (architecture, optimiseur, hyperparamètres, tout), le lancer, voir si le résultat est meilleur, et décider de garder ou revert. Et boucler. Indéfiniment.

Les résultats publics sont parlants, sans être magiques : Karpathy a laissé tourner son agent pendant environ 48h sur un modèle taille depth=12. L'agent a retenu 20 changements additifs qui, une fois appliqués à un modèle plus gros (depth=24), ont réduit le Time-to-GPT-2 de 2h02 à 1h48 — soit ~11% plus rapide (source : tweet Karpathy, 9 mars 2026). C'est un gain réel mais borné — et obtenu sur un mini-modèle, donc à ne pas extrapoler naïvement à du GPT-4.

Pourquoi c'est un moment charnière

On parle beaucoup d'"IA qui code". Autoresearch va un cran plus loin : l'IA fait de la recherche. Elle pose des hypothèses, teste, apprend, itère. Karpathy n'est pas seul sur ce chantier :

Sakana AI — Darwin Gödel Machine (mai 2025) : un agent qui réécrit son propre code et grimpe de 20% à 50% sur SWE-bench, et de 14% à 30% sur Polyglot. Transfert inter-modèles démontré.
Sakana AI Scientist v2 (avril 2025) : premier papier de recherche entièrement généré par une IA accepté à un workshop ICLR 2025. Nuance honnête : l'équipe a été critiquée pour des hallucinations et des résultats fragiles — le pipeline n'est pas magique.
ADAS (Meta, ICLR 2025) : une IA invente elle-même de nouveaux designs d'agents qui battent les architectures conçues par des humains (+13,6 points F1 en lecture, +14,4% en maths).

Autoresearch s'inscrit dans ce mouvement : ce n'est pas un gadget isolé, c'est un pattern qui va se généraliser.

— Comment ça marche

Le mécanisme en 3 pièces.

L'idée forte, c'est la simplicité. Seulement 3 fichiers importants dans tout le repo :

prepare.py · Le socle fixe

C'est le code que l'agent ne touche pas. Il prépare les données, le tokenizer, les utilitaires. C'est le cadre stable qui garantit que les expériences sont comparables.

train.py · Le terrain de jeu

Le seul fichier que l'agent a le droit de modifier. Il contient tout : l'architecture du modèle, l'optimiseur, la boucle d'entraînement, les hyperparamètres. Tout est libre. L'agent peut tout remettre en question.

program.md · Les instructions de l'humain

Le fichier que toi tu édites. Tu y écris, en langage naturel, comment l'agent doit travailler : "Essaye différentes tailles de batch", "Garde uniquement si val_bpb est plus bas", "Fais des tests courts d'abord, longs ensuite". C'est là que tu mets ton intelligence.

Le vrai changement de paradigme

Tu ne codes plus. Tu écris des instructions en français (ou anglais) pour un agent qui, lui, écrit le code. C'est ce que Karpathy appelle "writing the program that writes the program" — le même mouvement que son concept de Software 3.0. Ton vrai travail devient d'écrire un meilleur program.md, pas d'écrire du code Python.

La boucle concrète

Tu lances ton agent (Claude Code, Codex, etc.) dans le repo
Tu tapes : "Regarde program.md et lance une nouvelle expérience"
L'agent lit les instructions, modifie train.py
Il lance un training de 5 minutes
Il regarde la métrique val_bpb (bits per byte — plus bas = mieux)
Si meilleur → il garde. Si pire → il revert.
Il recommence avec une nouvelle idée. Toute la nuit.

Tu te lèves le matin, tu lis le log. Tu as peut-être un meilleur modèle. Ou pas. Mais tu as des dizaines d'expériences que tu n'aurais jamais eu le temps de faire toi-même.

— Ce que tu peux en faire

Même si tu n'es pas chercheur.

⚠️ Attention marketing IA · à lire avant de rêver

Beaucoup de gens te vendent en ce moment "ton agent qui tourne la nuit = +300% de résultats, tu dors, l'IA travaille, tu deviens riche". La vérité que je vois sur mes propres tests : tu vas passer 2-3 weekends à comprendre comment ça fonctionne, tu vas rater tes 10 premiers runs (métrique mal définie, budget mal calibré, agent qui boucle dans le vide), et tu auras peut-être 10 à 30% d'amélioration sur une tâche précise — pas 300%. Ça vaut toujours le coup parce que cette amélioration, une fois trouvée, elle tourne 24/7. Mais promets-toi de mesurer avant / mesurer après, sinon tu confondras le bruit et le signal.

Tu ne vas pas entraîner de modèle GPT. Mais le principe autoresearch s'applique à n'importe quel domaine où tu veux itérer. Voici 3 façons de l'appliquer à ton business.

1. Optimisation de tes cold emails

Tu as un template de cold email. Au lieu de tester 2-3 variantes, tu écris un email-program.md qui dit : "Génère une variante de mon template, envoie à 10 prospects, mesure le taux de réponse. Si meilleur, garde. Sinon revert. Boucle 50 fois.". L'agent tourne 1 semaine, tu récupères un email qui peut être nettement meilleur que ton template de départ. Combien mieux ? Honnêtement : je ne sais pas à l'avance. Dans mon cas, j'ai gagné quelques points de taux de réponse. Ça peut être zéro chez toi si ton template est déjà bon, ou beaucoup plus si tu partais de loin.

2. Optimisation de tes landing pages

Même principe. L'agent génère des variantes de ta landing, lance un split-test sur tes visiteurs réels, garde la meilleure, recommence. Plus tu as de trafic, plus vite tu apprends. Attention : tu auras rarement un résultat exploitable en-dessous de 1 000 visiteurs par variante — sinon c'est du bruit statistique, pas une vraie amélioration.

3. Recherche sur n'importe quel sujet

Tu veux comprendre un marché, une technologie, un concurrent. Tu écris un research-program.md qui dit : "Cherche 10 sources sur [sujet], résume, identifie les patterns, cherche 10 nouvelles sources sur les patterns, re-synthétise.". Tu laisses tourner la nuit. Tu as le lendemain un rapport que tu n'aurais jamais eu le temps de produire.

Les chiffres que je donne viennent de MON expérience

Je te partage ce que j'ai testé sur mes propres cas. Ce n'est pas une science, c'est un témoignage. Ton contexte (ta liste de prospects, ton trafic, ton sujet) va donner des résultats différents des miens. La seule règle universelle : mesure avant / mesure après. Sinon tu ne sais pas si ça a marché.

Les 2 pièges à éviter

(1) Métrique mal définie : si ton agent ne sait pas bien mesurer le "meilleur", il tourne en rond. Sois très précis dans ton program.md sur ce qui compte. (2) Budget temps mal calibré : si tu lui donnes 5h par expérience, tu en auras 4 dans la nuit. Pense en nombre d'itérations, pas en heures totales.

— Les 3 principes

À retenir pour toi.

Même si tu ne clones jamais ce repo, garde ces 3 idées :

Principe 01 · La méta-programmation gagne

Ton travail de plus haut levier aujourd'hui, ce n'est plus d'écrire du code. C'est d'écrire des instructions en langage naturel à des agents IA. Investis ton temps à maîtriser le "prompting avancé" — c'est le nouveau métier.

Principe 02 · Un cadre fixe + une zone libre

Dans autoresearch, prepare.py est intouchable (cadre). train.py est 100% libre (zone de jeu). Cette séparation est géniale. Applique-la à ton business : quels sont tes piliers non-négociables ? Et où laisses-tu l'expérimentation totale ?

Principe 03 · Itérer pendant que tu dors

Tu ne peux pas travailler 24/7. Un agent si. La vraie question : qu'est-ce que tu aimerais qu'il fasse pendant que tu dors ? Lance 3 loops cette semaine, tu verras.

Mon plan personnel

J'adapte autoresearch à ma veille auto : un agent qui scanne mes sources, propose des angles d'article, en rédige 3 variantes, me choisis la meilleure au réveil. On en reparle dans un prochain tuto.

4 outils pour commencer sans entraîner de modèle

Tu n'as pas besoin de cloner le repo de Karpathy pour appliquer l'idée. Quatre outils accessibles qui font tourner la boucle "essai → mesure → ajuste" :

Claude Code (ou Codex) — ce que Karpathy utilise lui-même. Un fichier program.md bien écrit + une commande en boucle, et tu fais du "poor man's autoresearch" en 30 minutes.
CrewAI — framework multi-agents avec rôles et mémoire persistante. Parfait si tu veux un "équipe" d'agents qui se passent le relais.
AutoGen (Microsoft) — conversation multi-agents, excellent pour le cycle "agent code → agent review → agent teste".
LangGraph — devenu la référence 2026 pour les workflows d'agents complexes avec état partagé.

Commence simple : un program.md + Claude Code + une métrique mesurable. Passe à CrewAI ou LangGraph seulement si le cas l'exige vraiment.

— Ton premier program.md

Un exemple copiable.

Si tu veux tester le concept sans cloner le repo de Karpathy, commence simple : optimiser un cold email. Voici un program.md de 30 lignes que tu peux copier, coller dans Claude Code (ou Codex), et lancer dès aujourd'hui.

# program.md · Optimisation cold email

## Objectif
Maximiser le taux de réponse d'un cold email B2B
sur une liste de 50 prospects qualifiés.

## Variables à optimiser
- Objet (max 60 caractères)
- Hook (1re phrase, max 15 mots)
- CTA (question finale, max 12 mots)
- Longueur totale (viser 70 à 110 mots)

## Cadre fixe (ne pas modifier)
- Signature, mon nom, mon contexte pro
- Nom du prospect, nom de son entreprise
- Bénéfice concret que je propose

## Boucle
1. Lire l'email actuel dans `email-v1.md`
2. Générer UNE variante qui change UNE seule variable
3. Envoyer à 10 prospects (via mon outil d'envoi)
4. Attendre 48h, mesurer le taux de réponse
5. Si taux > baseline → garder, continuer
6. Si taux < baseline → revert, essayer autre variable
7. Recommencer, 20 itérations max

## Métrique
taux de réponse = (réponses reçues) / (emails envoyés)
Baseline actuelle : 4% (à battre)

## Garde-fous
- Jamais plus de 10 prospects par variante
- Stop si 3 variantes consécutives sous baseline
- Log chaque run dans `runs.md` (date, variable, taux)

Ce fichier est volontairement court. C'est ça le travail : écrire des instructions claires, mesurables, avec des garde-fous. Pas du code. L'agent fait le reste.

Mon retour après 3 semaines de test sur ce schéma

Les 2 premières semaines, mes program.md étaient trop vagues → l'agent partait dans tous les sens. Depuis que je force UNE variable modifiée à la fois + une métrique chiffrée + un garde-fou, les runs sont enfin exploitables. Si ton agent tourne dans le vide, c'est presque toujours ton program.md qui est flou, pas l'agent qui est en cause.

Les agents
qui s'auto-
améliorent.

Ce que tu vas apprendre

C'est quoi autoresearch ?

Pourquoi c'est un moment charnière

Le mécanisme en 3 pièces.

prepare.py · Le socle fixe

train.py · Le terrain de jeu

program.md · Les instructions de l'humain

Le vrai changement de paradigme

La boucle concrète

Même si tu n'es pas chercheur.

⚠️ Attention marketing IA · à lire avant de rêver

1. Optimisation de tes cold emails

2. Optimisation de tes landing pages

3. Recherche sur n'importe quel sujet

Les chiffres que je donne viennent de MON expérience

Les 2 pièges à éviter

À retenir pour toi.

Principe 01 · La méta-programmation gagne

Principe 02 · Un cadre fixe + une zone libre

Principe 03 · Itérer pendant que tu dors

Mon plan personnel

4 outils pour commencer sans entraîner de modèle

Un exemple copiable.

Mon retour après 3 semaines de test sur ce schéma

Pour creuser directement.

Tu repères une erreur ?

Les prochains tutos arrivent.

Les agentsqui s'auto-améliorent.

Ce que tu vas apprendre

C'est quoi autoresearch ?

Pourquoi c'est un moment charnière

Le mécanisme en 3 pièces.

prepare.py · Le socle fixe

train.py · Le terrain de jeu

program.md · Les instructions de l'humain

Le vrai changement de paradigme

La boucle concrète

Même si tu n'es pas chercheur.

⚠️ Attention marketing IA · à lire avant de rêver

1. Optimisation de tes cold emails

2. Optimisation de tes landing pages

3. Recherche sur n'importe quel sujet

Les chiffres que je donne viennent de MON expérience

Les 2 pièges à éviter

À retenir pour toi.

Principe 01 · La méta-programmation gagne

Principe 02 · Un cadre fixe + une zone libre

Principe 03 · Itérer pendant que tu dors

Mon plan personnel

4 outils pour commencer sans entraîner de modèle

Un exemple copiable.

Mon retour après 3 semaines de test sur ce schéma

Pour creuser directement.

Tu repères une erreur ?

Les prochains tutos arrivent.

Cet article t'a servi ? Dis-le.

Les agents
qui s'auto-
améliorent.