Add dopamine system spec — prediction error + TD-learning

GABA (inhibition) + Dopamine (learning) = stable system that learns. Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-26 16:58:55 +07:00 · 2026-01-26 16:58:55 +07:00 · c82631c9e3
commit c82631c9e3
parent c43d7fd5f2
1 changed files with 98 additions and 0 deletions
--- a/docs/Systeme_Dopaminergique.md
+++ b/docs/Systeme_Dopaminergique.md
@ -0,0 +1,98 @@
+# Système Dopaminergique — MagistraAI
+
+## Principe Fondamental
+
+La dopamine n'est **pas** un reward signal. C'est un **prediction error signal**. Elle encode la différence entre ce que le système attendait et ce qu'il a obtenu.
+
+C'est exactement le temporal difference learning (TD-learning) de Sutton & Barto — le même principe derrière AlphaGo. Sauf qu'ici les "neurones" sont des agents Claude avec 200k tokens de contexte chacun, pas des floats dans une matrice.
+
+## Formule Core
+
+```
+dopamine = outcome_réel - outcome_prédit
+```
+
+- **Positif** → renforce le pathway. "Ce chemin marche mieux que prévu"
+- **Négatif** → affaiblit le pathway. "Ce chemin marche moins bien que prévu"
+- **~Zéro** → pas de changement. Le modèle prédictif est déjà bon
+
+## Double Passe dans les Boucles Réentrantes
+
+### 1. Passe Prédictive (avant action)
+L'agent génère une prédiction de l'outcome avant d'agir. Ce signal circule dans le réseau comme un "brouillon" du futur.
+
+### 2. Passe Corrective (après action)
+L'outcome réel est comparé à la prédiction. Le prediction error remonte le pathway et ajuste les poids.
+
+Cette double passe exploite naturellement la structure réentrante du réseau — le même chemin sert pour la prédiction (aller) et la correction (retour).
+
+## Impact sur les Poids
+
+```
+pour chaque connexion dans le pathway activé:
+    prediction_error = outcome_réel - outcome_prédit
+    delta = prediction_error * learning_rate * (poids_actuel / 65535)
+    nouveau_poids = clamp(poids + delta, 0, 65535)
+    salience du neurone cible += |delta| * SALIENCE_BOOST
+```
+
+## Hiérarchie de Goals
+
+Le système a besoin de savoir ce qui est "bien" et "mal". Cette évaluation est hiérarchique :
+
+| Niveau | Source | Exemple |
+|---|---|---|
+| **Goals terminaux** | Définis par l'humain | "Trouve des jobs freelance pertinents" |
+| **Sub-goals émergents** | Générés par le réseau | "Encoder correctement", "rappeler le bon souvenir", "filtrer le bruit" |
+| **Micro-goals** | Chaque agent individuellement | "Ma prédiction de sortie correspond-elle à ce que j'ai produit ?" |
+
+Les goals terminaux sont le "sens de la vie" du système. Les sub-goals et micro-goals émergent de la structure et se raffinent par la dopamine.
+
+## Exploration vs Exploitation
+
+La dopamine historique d'un pathway détermine le comportement :
+
+- **Dopamine haute historique** → **Exploitation**. Habitudes, réponses rapides, chemins éprouvés
+- **Aucun pathway avec dopamine significative** → **Exploration**. Le système essaie de nouveaux chemins
+- **Dopamine négative répétée** → **Abandon**. Désapprentissage du pathway
+
+C'est l'exploration/exploitation naturelle, sans paramètre epsilon arbitraire.
+
+## Relation GABA + Dopamine
+
+Les deux systèmes sont complémentaires et nécessaires :
+
+| | GABA (inhibition) | Dopamine (apprentissage) |
+|---|---|---|
+| **Rôle** | Frein mécanique | Frein/accélérateur sémantique |
+| **Mécanisme** | Decay par hop, période réfractaire, pass_count | Prediction error → ajustement des poids |
+| **Cible** | Empêche les boucles infinies | Renforce ce qui marche, affaiblit ce qui marche pas |
+| **Sans l'autre** | Stable mais stupide | Apprend mais explose |
+
+**GABA** = "ralentis, stop, t'emballe pas"
+**Dopamine** = "ça c'était bien/mal, ajuste"
+
+Les deux ensemble = un système qui apprend sans exploser.
+
+## Distinction Hebbian vs Dopaminergique
+
+La co-activation hebbienne ("neurons that fire together wire together") est **nécessaire mais insuffisante** :
+
+- **Hebbian** : Neurone A et B s'activent ensemble → connexion renforcée. Mécanique, ne dit rien sur la qualité
+- **Dopamine** : Le pathway perception → mémoire → décision a produit un bon résultat → tout le chemin est renforcé **rétroactivement**
+
+Le système utilise les deux :
+1. Hebbian pour la formation initiale des associations
+2. Dopamine pour l'évaluation et le renforcement sélectif basé sur les résultats
+
+## Question Ouverte : Définition du "Bon Résultat"
+
+C'est LA question. C'est quoi un "bon résultat" pour MagistraAI ?
+
+Options (non exclusives) :
+- **Validation humaine** — L'utilisateur valide/invalide explicitement
+- **Métrique interne** — Cohérence du réseau, qualité de la prédiction, réduction d'entropie
+- **Outcome externe** — Un email envoyé qui reçoit une réponse, un job freelance décroché
+- **Consensus inter-agents** — Les autres agents du réseau évaluent la qualité de la sortie
+
+La réponse est probablement un mix : les goals terminaux sont évalués par l'humain et les outcomes externes, les sub-goals par les métriques internes et le consensus.