Ajout particules ve/eol + documentation incohérences linguistiques

- Ajout de 've' (origine) et 'eol' (habituel) dans 00-grammaire.json
- Documentation détaillée des incohérences dans test-results-radical-system.md
- Alerte sur suffixes 'aran' et 'vis' non documentés dans grammaire officielle
- Révision objectifs coverage: 94% réaliste après ajout ve/eol
- Recommandation: valider texte de test avant ajout de nouveaux suffixes

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
This commit is contained in:
StillHammer 2025-11-29 15:03:36 +08:00
parent e8d17ab0d5
commit 72616f7802
2 changed files with 68 additions and 20 deletions

View File

@ -37,16 +37,29 @@ Exemples de mots correctement trouvés grâce au système:
#### 2. Compositions non décomposées (4)
- `sukamori` - composition potentielle `suk-a-mori` (forger + relation + ?)
- `uraal` - composition potentielle `ur-aa-l` (être + relation_forte + ?)
- `kisaran` - dérivé de `kis` avec suffixe `aran` (non documenté)
- `uravis` - verbe avec suffixe `vis` (non documenté)
- `kisaran` - **⚠️ PROBLÉMATIQUE** - présenté comme dérivé de `kis` avec suffixe `aran`
- `uravis` - **⚠️ PROBLÉMATIQUE** - présenté comme verbe avec suffixe `vis`
**Problèmes identifiés:**
- Suffixes `aran` et `vis` absents de `VERBAL_SUFFIXES`
- Racines composantes (`mori`, composants de `uraal`) peut-être absentes
**⚠️ ALERTE - Incohérence linguistique détectée (2025-11-29):**
- Les suffixes `aran` et `vis` **n'existent nulle part** dans la documentation linguistique officielle
- Vérification complète effectuée dans :
- `ancien-confluent/docs/03-GRAMMAIRE.md` - Aucune mention
- `ancien-confluent/docs/02-MORPHOLOGIE.md` - Aucune mention
- Tous les fichiers JSON du lexique - Aucune occurrence
- Les seuls conjugateurs documentés sont : `u`, `at`, `aan`, `ait`, `amat`, `en`, `il`, `eol`, `eon`, `eom`, `ok`, `es`, `ul`, `uv`
- Le suffixe `iran` existe (ex: `kisiran`), mais `aran` est **absent**
**Hypothèses sur l'origine:**
1. Mots **inventés pour le test** sans base linguistique
2. **Erreurs/typos** dans le texte de test original
3. **Mots complets** non documentés (pas des dérivés)
4. Compositions complexes mal analysées
**Action requise:**
- Enrichir `radicalMatcher.js` avec nouveaux suffixes
- Vérifier/ajouter racines manquantes au lexique
- ❌ **NE PAS** ajouter `aran` et `vis` comme suffixes sans validation linguistique
- ✅ Vérifier l'origine du texte de test et sa conformité à la grammaire
- ✅ Soit corriger le texte, soit documenter ces mots comme racines complètes
- ✅ Investiguer si `kisaran``kisiran` (typo ?) et `uravis` = composition méconnue
#### 3. Mots absents du lexique (4)
- `tiru` - modificateur/adjectif ?
@ -72,10 +85,11 @@ va oracle vo grand (ou: vaste) conseil na faucons chasseurs (ou: faucons chasseu
### Ce qui nécessite des améliorations 🔧
1. **Liste des suffixes verbaux** - Incomplète (manque `aran`, `vis`, etc.)
1. **⚠️ Liste des suffixes verbaux** - ~~Incomplète (manque `aran`, `vis`, etc.)~~ **ATTENTION:** Ces suffixes n'existent pas dans la grammaire officielle (voir alerte ci-dessus)
2. **Décomposition morphologique récursive** - Ne trouve pas toutes les compositions
3. **Lexique** - Certains mots/particules manquants
4. **Confiance des matches** - Système de scoring pourrait être affiné
3. **Lexique** - Certains mots/particules manquants (`ve`, `eol` maintenant ajoutés - 2025-11-29)
4. **Validation du texte de test** - Contient des mots non conformes à la grammaire établie
5. **Confiance des matches** - Système de scoring pourrait être affiné
## Commande de test
@ -88,12 +102,16 @@ curl -s -X POST http://localhost:3000/api/translate/conf2fr \
## Prochaines étapes pour atteindre 95%+
1. **Ajouter particules `ve` et `eol`** → +2% coverage
2. **Enrichir VERBAL_SUFFIXES avec `aran`, `vis`** → +2% coverage
3. **Documenter `tiru`, `kala`, `vulu`** → +3% coverage
4. **Vérifier/ajouter racines pour compositions** → +1% coverage
1. ✅ **Ajouter particules `ve` et `eol`** → +2% coverage (FAIT - 2025-11-29)
2. ❌ ~~**Enrichir VERBAL_SUFFIXES avec `aran`, `vis`**~~**ABANDONNÉ** - Ces suffixes n'existent pas linguistiquement
3. **⚠️ PRIORITÉ: Valider/corriger le texte de test** - Vérifier l'origine de `kisaran`, `uravis`, `sukamori`, `uraal`
4. **Documenter `tiru`, `kala`, `vulu`** → +3% coverage (si mots légitimes)
5. **Vérifier/ajouter racines pour compositions** → +1% coverage
**Objectif réaliste: 98-100% coverage** avec ces ajustements.
**Objectif révisé:**
- Coverage réel attendu après ajout de `ve` et `eol`: **94%** (114/122)
- Coverage maximum possible: **95-96%** si les autres mots sont légitimes
- **Attention:** Le texte de test pourrait contenir des erreurs linguistiques
## Fichiers créés/modifiés
@ -121,9 +139,21 @@ curl -s -X POST http://localhost:3000/api/translate/conf2fr \
## Conclusion
Le système de recherche par radicaux est **fonctionnel et opérationnel**. Il a permis d'améliorer significativement le coverage de 83% à 92% (+9 points). Les 8% restants nécessitent principalement:
- L'enrichissement du lexique (particules, mots manquants)
- L'ajout de suffixes verbaux supplémentaires
- La documentation de quelques racines composantes
Le système de recherche par radicaux est **fonctionnel et opérationnel**. Il a permis d'améliorer significativement le coverage de 83% à 92% (+9 points).
Le système est prêt pour la production et peut être amélioré incrémentalement en ajoutant les éléments manquants au lexique.
**⚠️ Découverte importante (2025-11-29):**
Une analyse approfondie révèle que le texte de test contient des mots **non conformes à la grammaire officielle** :
- `kisaran` et `uravis` utilisent des "suffixes" (`aran`, `vis`) qui n'existent pas dans la documentation
- `sukamori`, `uraal`, `tiru`, `kala`, `vulu` sont également non documentés
**Actions recommandées avant production:**
1. ✅ Particules `ve` et `eol` ajoutées au lexique (2025-11-29) → Coverage passe à ~94%
2. ⚠️ **CRITIQUE:** Valider l'origine et la légitimité du texte de test
3. Option A: Corriger les erreurs du texte de test pour conformité linguistique
4. Option B: Documenter ces nouveaux mots s'ils sont intentionnels (extensions non documentées)
**État actuel:**
- Système technique: ✅ Robuste et prêt
- Texte de test: ⚠️ Contient possiblement des erreurs ou extensions non documentées
- Coverage réel: **94%** (après ajout de `ve`/`eol`)
- Coverage avec validation: Potentiellement **98-100%** si texte corrigé

View File

@ -65,6 +65,15 @@
"note": "Instrument, accompagnement"
}]
},
"ve": {
"mot_francais": "[ORIGINE]",
"traductions": [{
"confluent": "ve",
"type": "particule",
"categorie": "cas",
"note": "Origine, source (depuis)"
}]
},
"at": {
"mot_francais": "[PASSÉ-VÉCU]",
"traductions": [{
@ -128,6 +137,15 @@
"note": "Passé avec regret ou nostalgie"
}]
},
"eol": {
"mot_francais": "[HABITUEL]",
"traductions": [{
"confluent": "eol",
"type": "marqueur_aspect",
"categorie": "aspect",
"note": "Aspect habituel (fait régulièrement)"
}]
},
"zo": {
"mot_francais": "[NÉG]",
"traductions": [{