From 72616f7802239e1eb5efd155ad42af4df3537e5a Mon Sep 17 00:00:00 2001 From: StillHammer Date: Sat, 29 Nov 2025 15:03:36 +0800 Subject: [PATCH] =?UTF-8?q?Ajout=20particules=20ve/eol=20+=20documentation?= =?UTF-8?q?=20incoh=C3=A9rences=20linguistiques?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - Ajout de 've' (origine) et 'eol' (habituel) dans 00-grammaire.json - Documentation détaillée des incohérences dans test-results-radical-system.md - Alerte sur suffixes 'aran' et 'vis' non documentés dans grammaire officielle - Révision objectifs coverage: 94% réaliste après ajout ve/eol - Recommandation: valider texte de test avant ajout de nouveaux suffixes 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude --- .../test-results-radical-system.md | 70 +++++++++++++------ ancien-confluent/lexique/00-grammaire.json | 18 +++++ 2 files changed, 68 insertions(+), 20 deletions(-) diff --git a/ConfluentTranslator/test-results-radical-system.md b/ConfluentTranslator/test-results-radical-system.md index 79691f9..e7e5377 100644 --- a/ConfluentTranslator/test-results-radical-system.md +++ b/ConfluentTranslator/test-results-radical-system.md @@ -37,16 +37,29 @@ Exemples de mots correctement trouvés grâce au système: #### 2. Compositions non décomposées (4) - `sukamori` - composition potentielle `suk-a-mori` (forger + relation + ?) - `uraal` - composition potentielle `ur-aa-l` (être + relation_forte + ?) -- `kisaran` - dérivé de `kis` avec suffixe `aran` (non documenté) -- `uravis` - verbe avec suffixe `vis` (non documenté) +- `kisaran` - **⚠️ PROBLÉMATIQUE** - présenté comme dérivé de `kis` avec suffixe `aran` +- `uravis` - **⚠️ PROBLÉMATIQUE** - présenté comme verbe avec suffixe `vis` -**Problèmes identifiés:** -- Suffixes `aran` et `vis` absents de `VERBAL_SUFFIXES` -- Racines composantes (`mori`, composants de `uraal`) peut-être absentes +**⚠️ ALERTE - Incohérence linguistique détectée (2025-11-29):** +- Les suffixes `aran` et `vis` **n'existent nulle part** dans la documentation linguistique officielle +- Vérification complète effectuée dans : + - `ancien-confluent/docs/03-GRAMMAIRE.md` - Aucune mention + - `ancien-confluent/docs/02-MORPHOLOGIE.md` - Aucune mention + - Tous les fichiers JSON du lexique - Aucune occurrence +- Les seuls conjugateurs documentés sont : `u`, `at`, `aan`, `ait`, `amat`, `en`, `il`, `eol`, `eon`, `eom`, `ok`, `es`, `ul`, `uv` +- Le suffixe `iran` existe (ex: `kisiran`), mais `aran` est **absent** + +**Hypothèses sur l'origine:** +1. Mots **inventés pour le test** sans base linguistique +2. **Erreurs/typos** dans le texte de test original +3. **Mots complets** non documentés (pas des dérivés) +4. Compositions complexes mal analysées **Action requise:** -- Enrichir `radicalMatcher.js` avec nouveaux suffixes -- Vérifier/ajouter racines manquantes au lexique +- ❌ **NE PAS** ajouter `aran` et `vis` comme suffixes sans validation linguistique +- ✅ Vérifier l'origine du texte de test et sa conformité à la grammaire +- ✅ Soit corriger le texte, soit documenter ces mots comme racines complètes +- ✅ Investiguer si `kisaran` ≠ `kisiran` (typo ?) et `uravis` = composition méconnue #### 3. Mots absents du lexique (4) - `tiru` - modificateur/adjectif ? @@ -72,10 +85,11 @@ va oracle vo grand (ou: vaste) conseil na faucons chasseurs (ou: faucons chasseu ### Ce qui nécessite des améliorations 🔧 -1. **Liste des suffixes verbaux** - Incomplète (manque `aran`, `vis`, etc.) +1. **⚠️ Liste des suffixes verbaux** - ~~Incomplète (manque `aran`, `vis`, etc.)~~ **ATTENTION:** Ces suffixes n'existent pas dans la grammaire officielle (voir alerte ci-dessus) 2. **Décomposition morphologique récursive** - Ne trouve pas toutes les compositions -3. **Lexique** - Certains mots/particules manquants -4. **Confiance des matches** - Système de scoring pourrait être affiné +3. **Lexique** - Certains mots/particules manquants (`ve`, `eol` maintenant ajoutés - 2025-11-29) +4. **Validation du texte de test** - Contient des mots non conformes à la grammaire établie +5. **Confiance des matches** - Système de scoring pourrait être affiné ## Commande de test @@ -88,12 +102,16 @@ curl -s -X POST http://localhost:3000/api/translate/conf2fr \ ## Prochaines étapes pour atteindre 95%+ -1. **Ajouter particules `ve` et `eol`** → +2% coverage -2. **Enrichir VERBAL_SUFFIXES avec `aran`, `vis`** → +2% coverage -3. **Documenter `tiru`, `kala`, `vulu`** → +3% coverage -4. **Vérifier/ajouter racines pour compositions** → +1% coverage +1. ✅ **Ajouter particules `ve` et `eol`** → +2% coverage (FAIT - 2025-11-29) +2. ❌ ~~**Enrichir VERBAL_SUFFIXES avec `aran`, `vis`**~~ → **ABANDONNÉ** - Ces suffixes n'existent pas linguistiquement +3. **⚠️ PRIORITÉ: Valider/corriger le texte de test** - Vérifier l'origine de `kisaran`, `uravis`, `sukamori`, `uraal` +4. **Documenter `tiru`, `kala`, `vulu`** → +3% coverage (si mots légitimes) +5. **Vérifier/ajouter racines pour compositions** → +1% coverage -**Objectif réaliste: 98-100% coverage** avec ces ajustements. +**Objectif révisé:** +- Coverage réel attendu après ajout de `ve` et `eol`: **94%** (114/122) +- Coverage maximum possible: **95-96%** si les autres mots sont légitimes +- **Attention:** Le texte de test pourrait contenir des erreurs linguistiques ## Fichiers créés/modifiés @@ -121,9 +139,21 @@ curl -s -X POST http://localhost:3000/api/translate/conf2fr \ ## Conclusion -Le système de recherche par radicaux est **fonctionnel et opérationnel**. Il a permis d'améliorer significativement le coverage de 83% à 92% (+9 points). Les 8% restants nécessitent principalement: -- L'enrichissement du lexique (particules, mots manquants) -- L'ajout de suffixes verbaux supplémentaires -- La documentation de quelques racines composantes +Le système de recherche par radicaux est **fonctionnel et opérationnel**. Il a permis d'améliorer significativement le coverage de 83% à 92% (+9 points). -Le système est prêt pour la production et peut être amélioré incrémentalement en ajoutant les éléments manquants au lexique. +**⚠️ Découverte importante (2025-11-29):** +Une analyse approfondie révèle que le texte de test contient des mots **non conformes à la grammaire officielle** : +- `kisaran` et `uravis` utilisent des "suffixes" (`aran`, `vis`) qui n'existent pas dans la documentation +- `sukamori`, `uraal`, `tiru`, `kala`, `vulu` sont également non documentés + +**Actions recommandées avant production:** +1. ✅ Particules `ve` et `eol` ajoutées au lexique (2025-11-29) → Coverage passe à ~94% +2. ⚠️ **CRITIQUE:** Valider l'origine et la légitimité du texte de test +3. Option A: Corriger les erreurs du texte de test pour conformité linguistique +4. Option B: Documenter ces nouveaux mots s'ils sont intentionnels (extensions non documentées) + +**État actuel:** +- Système technique: ✅ Robuste et prêt +- Texte de test: ⚠️ Contient possiblement des erreurs ou extensions non documentées +- Coverage réel: **94%** (après ajout de `ve`/`eol`) +- Coverage avec validation: Potentiellement **98-100%** si texte corrigé diff --git a/ancien-confluent/lexique/00-grammaire.json b/ancien-confluent/lexique/00-grammaire.json index dfba711..b1aa372 100644 --- a/ancien-confluent/lexique/00-grammaire.json +++ b/ancien-confluent/lexique/00-grammaire.json @@ -65,6 +65,15 @@ "note": "Instrument, accompagnement" }] }, + "ve": { + "mot_francais": "[ORIGINE]", + "traductions": [{ + "confluent": "ve", + "type": "particule", + "categorie": "cas", + "note": "Origine, source (depuis)" + }] + }, "at": { "mot_francais": "[PASSÉ-VÉCU]", "traductions": [{ @@ -128,6 +137,15 @@ "note": "Passé avec regret ou nostalgie" }] }, + "eol": { + "mot_francais": "[HABITUEL]", + "traductions": [{ + "confluent": "eol", + "type": "marqueur_aspect", + "categorie": "aspect", + "note": "Aspect habituel (fait régulièrement)" + }] + }, "zo": { "mot_francais": "[NÉG]", "traductions": [{