Anthropic Dreaming : les agents Claude apprennent entre les sessions sans humain

Le 6 mai 2026, lors de sa conférence Code with Claude, Anthropic a dévoilé une fonctionnalité qui change la donne pour les agents autonomes : dreaming. Disponible en research preview, ce mécanisme permet aux Claude Managed Agents de revoir leurs sessions passées entre deux exécutions, de fusionner les mémoires dupliquées, de supprimer les entrées obsolètes et d'extraire des règles exploitables. Le tout sans intervention humaine entre les itérations.

Pourquoi c'est important ? Parce que c'est le premier pas concret vers une boucle d'amélioration continue où l'agent IA ne se contente pas d'exécuter, mais pilote lui-même sa propre montée en compétence.

Anthropic Claude dreaming concept

Qu'est-ce que le dreaming exactement ?

Le dreaming est un processus planifié et asynchrone qui s'exécute entre les sessions de travail d'un agent Claude. Imaginez un agent qui aurait passé sa journée à traiter des dossiers clients, à produire des documents, à dialoguer avec des outils tiers. Le soir venu, plutôt que de tout oublier ou de garder en vrac toutes les interactions, l'agent revisite ce qu'il a fait, repère ce qui s'est répété, ce qui a échoué, ce qui mérite d'être codifié.

Le résultat n'est pas un changement de poids du modèle. C'est une réécriture de la mémoire :

Les doublons sont fusionnés
Les entrées obsolètes ou contradictoires sont nettoyées
Les patterns récurrents (erreurs répétées, préférences d'équipe, conventions internes) sont extraits sous forme de notes texte et de "playbooks" structurés

Ces playbooks deviennent des règles que les sessions futures peuvent consulter. Et comme tout reste en texte clair, le processus est entièrement auditable par un humain.

Comment ça marche concrètement

Anthropic décrit le dreaming comme un cycle en trois phases :

1. Revue : l'agent parcourt l'historique de ses sessions, ses logs, ses stores mémoire. Pas de boîte noire, tout est consultable.

2. Consolidation : les informations redondantes sont fusionnées, les conflits arbitrés, les obsolescences supprimées. C'est l'équivalent du "ménage cognitif" que ferait un employé entre deux journées de travail.

3. Extraction : les patterns récurrents sont transformés en heuristiques exploitables. Si l'agent a fait trois fois la même erreur de formatage sur un fichier Excel, le playbook contiendra désormais une règle pour l'éviter.

Consolidation des mémoires d'agent IA pendant le dreaming

Le tout tourne en quelques minutes par cycle selon Anthropic, ce qui rend la fonctionnalité utilisable la nuit ou pendant les périodes creuses. Pas besoin de bloquer un GPU pour des heures.

Les chiffres : Harvey, outcomes et productivité

Anthropic communique deux chiffres clés autour de cette annonce.

Le premier vient de Harvey, une legal-tech américaine spécialisée dans l'assistance IA pour cabinets d'avocats. Après avoir intégré dreaming, Harvey a observé un taux de complétion de tâches multiplié par 6 environ. Sur des workflows juridiques complexes (analyse de contrats, due diligence), les agents qui rêvent commettent moins d'erreurs récurrentes et s'adaptent plus vite aux conventions de chaque cabinet.

Le second chiffre concerne une fonctionnalité jumelle annoncée le même jour : outcomes. Sur des tâches complexes type génération de fichiers .docx ou .pptx, Anthropic revendique +10 points de taux de succès versus les prompts standards. Les deux fonctionnalités s'utilisent souvent ensemble : outcomes guide l'agent pendant l'exécution, dreaming le fait progresser entre les exécutions.

Playbooks et patterns extraits par les agents Claude

Mémoire vs dreaming : la différence clé

Anthropic distingue clairement les deux :

La mémoire sert pendant une session ou une tâche. C'est la capacité de l'agent à garder le contexte courant.
Le dreaming sert entre les sessions. C'est la capacité de l'agent à transformer ses expériences passées en règles pour ses sessions futures.

Ensemble, les deux forment ce qu'Anthropic appelle "un système mémoire robuste pour agents auto-améliorants". C'est une distinction importante : aucune des deux ne modifie le modèle sous-jacent, mais ensemble elles donnent à l'agent une trajectoire d'apprentissage propre à son contexte d'utilisation.

Contrôle humain et auditabilité

L'un des points sur lesquels Anthropic insiste : vous gardez la main. Trois niveaux de contrôle possibles :

Auto : le dreaming met à jour la mémoire seul, sans validation humaine. Pour les usages où le risque est faible.
Review : vous validez chaque modification proposée avant qu'elle ne s'applique. Pour les contextes sensibles (legal, santé, finance).
Custom : vous configurez la fréquence des cycles (quotidien, hebdomadaire, à la demande) et les seuils d'auto-application.

Comme les playbooks et notes sont en texte clair, vous pouvez les relire, les versionner, les commenter, voire les éditer manuellement. C'est l'inverse d'un fine-tuning opaque qui modifierait les poids du modèle.

Boucle d'auto-amélioration continue des agents IA

Notre avis chez RedArrow

Le dreaming marque un tournant que beaucoup attendaient sans oser le formuler clairement. Jusqu'à présent, le seul moyen d'améliorer un agent IA en production était de le re-prompter manuellement, de mettre à jour des templates ou de retravailler le RAG. Bref, du boulot humain à chaque itération. Avec dreaming, l'agent prend une partie de cette charge sur lui.

Pour les PME et ETI françaises que nous accompagnons, cela change deux choses très concrètes. D'abord, le coût total de possession d'un agent IA baisse parce que la maintenance "humaine entre deux runs" diminue. Ensuite, et c'est plus subtil, on peut envisager des cas d'usage qui étaient inaccessibles auparavant : ces agents qui doivent intégrer les conventions internes d'une entreprise (vocabulaire métier, process spécifiques, exceptions) deviennent viables sans avoir à coder en dur des dizaines de règles.

Attention toutefois : research preview signifie que la fonctionnalité n'est ni stable ni largement disponible. Et pour les secteurs régulés (RGPD, AI Act, secret professionnel), le mode review reste obligatoire. Si vous nous consultez pour déployer un agent IA en entreprise, nous recommandons systématiquement d'attendre que dreaming soit en GA avant de l'intégrer dans des workflows critiques. Mais le potentiel pour les workflows internes et l'expérimentation est réel dès aujourd'hui.

Questions fréquentes

Le dreaming modifie-t-il le modèle Claude lui-même ? Non. Anthropic est clair sur ce point : les poids du modèle ne changent pas. Le dreaming écrit uniquement dans la mémoire externe de l'agent (notes texte et playbooks structurés). C'est ce qui rend le processus auditable et réversible, contrairement à un fine-tuning classique.

Combien de temps prend un cycle de dreaming ? Selon Anthropic, quelques minutes par cycle dans les conditions actuelles de la research preview. La fonctionnalité est conçue pour tourner la nuit ou pendant les périodes creuses, ce qui en fait un complément naturel aux workflows existants.

Comment savoir si mon agent a besoin de dreaming ? Si votre agent gère des sessions répétées sur des sujets similaires (support client, traitement de documents, suivi commercial), il accumule probablement des patterns que dreaming pourrait extraire. À l'inverse, un agent à usage ponctuel ou très variable en tire moins de valeur. La règle empirique : plus l'agent est spécialisé sur un domaine, plus le dreaming devient pertinent.

Sources :

Anthropic Dreaming : les agents Claude apprennent entre les sessions sans humain

Qu'est-ce que le dreaming exactement ?

Comment ça marche concrètement

Les chiffres : Harvey, outcomes et productivité

Mémoire vs dreaming : la différence clé

Contrôle humain et auditabilité

Notre avis chez RedArrow

Questions fréquentes

Articles sur le meme sujet

NVIDIA Vera Rubin entre en production : 6 puces, HBM4 et conception IA

DeepSeek V4 : entraîné 100 % sur Huawei Ascend, sans NVIDIA

AI Act, ANSSI, CERT-FR : 3 mois pour préparer votre IA souveraine