GABA (inhibition) + Dopamine (learning) = stable system that learns. Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
4.6 KiB
Système Dopaminergique — MagistraAI
Principe Fondamental
La dopamine n'est pas un reward signal. C'est un prediction error signal. Elle encode la différence entre ce que le système attendait et ce qu'il a obtenu.
C'est exactement le temporal difference learning (TD-learning) de Sutton & Barto — le même principe derrière AlphaGo. Sauf qu'ici les "neurones" sont des agents Claude avec 200k tokens de contexte chacun, pas des floats dans une matrice.
Formule Core
dopamine = outcome_réel - outcome_prédit
- Positif → renforce le pathway. "Ce chemin marche mieux que prévu"
- Négatif → affaiblit le pathway. "Ce chemin marche moins bien que prévu"
- ~Zéro → pas de changement. Le modèle prédictif est déjà bon
Double Passe dans les Boucles Réentrantes
1. Passe Prédictive (avant action)
L'agent génère une prédiction de l'outcome avant d'agir. Ce signal circule dans le réseau comme un "brouillon" du futur.
2. Passe Corrective (après action)
L'outcome réel est comparé à la prédiction. Le prediction error remonte le pathway et ajuste les poids.
Cette double passe exploite naturellement la structure réentrante du réseau — le même chemin sert pour la prédiction (aller) et la correction (retour).
Impact sur les Poids
pour chaque connexion dans le pathway activé:
prediction_error = outcome_réel - outcome_prédit
delta = prediction_error * learning_rate * (poids_actuel / 65535)
nouveau_poids = clamp(poids + delta, 0, 65535)
salience du neurone cible += |delta| * SALIENCE_BOOST
Hiérarchie de Goals
Le système a besoin de savoir ce qui est "bien" et "mal". Cette évaluation est hiérarchique :
| Niveau | Source | Exemple |
|---|---|---|
| Goals terminaux | Définis par l'humain | "Trouve des jobs freelance pertinents" |
| Sub-goals émergents | Générés par le réseau | "Encoder correctement", "rappeler le bon souvenir", "filtrer le bruit" |
| Micro-goals | Chaque agent individuellement | "Ma prédiction de sortie correspond-elle à ce que j'ai produit ?" |
Les goals terminaux sont le "sens de la vie" du système. Les sub-goals et micro-goals émergent de la structure et se raffinent par la dopamine.
Exploration vs Exploitation
La dopamine historique d'un pathway détermine le comportement :
- Dopamine haute historique → Exploitation. Habitudes, réponses rapides, chemins éprouvés
- Aucun pathway avec dopamine significative → Exploration. Le système essaie de nouveaux chemins
- Dopamine négative répétée → Abandon. Désapprentissage du pathway
C'est l'exploration/exploitation naturelle, sans paramètre epsilon arbitraire.
Relation GABA + Dopamine
Les deux systèmes sont complémentaires et nécessaires :
| GABA (inhibition) | Dopamine (apprentissage) | |
|---|---|---|
| Rôle | Frein mécanique | Frein/accélérateur sémantique |
| Mécanisme | Decay par hop, période réfractaire, pass_count | Prediction error → ajustement des poids |
| Cible | Empêche les boucles infinies | Renforce ce qui marche, affaiblit ce qui marche pas |
| Sans l'autre | Stable mais stupide | Apprend mais explose |
GABA = "ralentis, stop, t'emballe pas" Dopamine = "ça c'était bien/mal, ajuste"
Les deux ensemble = un système qui apprend sans exploser.
Distinction Hebbian vs Dopaminergique
La co-activation hebbienne ("neurons that fire together wire together") est nécessaire mais insuffisante :
- Hebbian : Neurone A et B s'activent ensemble → connexion renforcée. Mécanique, ne dit rien sur la qualité
- Dopamine : Le pathway perception → mémoire → décision a produit un bon résultat → tout le chemin est renforcé rétroactivement
Le système utilise les deux :
- Hebbian pour la formation initiale des associations
- Dopamine pour l'évaluation et le renforcement sélectif basé sur les résultats
Question Ouverte : Définition du "Bon Résultat"
C'est LA question. C'est quoi un "bon résultat" pour MagistraAI ?
Options (non exclusives) :
- Validation humaine — L'utilisateur valide/invalide explicitement
- Métrique interne — Cohérence du réseau, qualité de la prédiction, réduction d'entropie
- Outcome externe — Un email envoyé qui reçoit une réponse, un job freelance décroché
- Consensus inter-agents — Les autres agents du réseau évaluent la qualité de la sortie
La réponse est probablement un mix : les goals terminaux sont évalués par l'humain et les outcomes externes, les sub-goals par les métriques internes et le consensus.