From e93c2f485b98f70c2f7de6cb236c067b70e5d027 Mon Sep 17 00:00:00 2001 From: StillHammer Date: Mon, 1 Dec 2025 07:47:11 +0800 Subject: [PATCH] =?UTF-8?q?Analyse=20d=C3=A9taill=C3=A9e=20des=20mots=20pr?= =?UTF-8?q?obl=C3=A9matiques=20du=20texte=20de=20test?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Investigation complète des 10 mots non trouvés (8 après ajout ve/eol): Découvertes: - tiru: ✅ Légitime (nombre = 3 dans 22-nombres.json) - kisaran vs kisiran: ⚠️ Deux formes dans le texte, probable typo - uravis: ❌ Suffixe 'vis' inexistant dans grammaire - sukamori: ❌ Racine 'mori' totalement absente du lexique - uraal: ❌ Composition invalide (pas de racine 'al') - kala: ❌ Totalement absent - vulu: ❌ Totalement absent Recommandations: - Option A: Corriger le texte de test - Option B: Documenter les nouveaux mots si légitimes - Option C: Hybride (ajouter tiru, corriger kisaran, valider reste) Document: ConfluentTranslator/ANALYSE_MOTS_PROBLEMATIQUES.md 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude --- .../ANALYSE_MOTS_PROBLEMATIQUES.md | 241 ++++++++++++++++++ 1 file changed, 241 insertions(+) create mode 100644 ConfluentTranslator/ANALYSE_MOTS_PROBLEMATIQUES.md diff --git a/ConfluentTranslator/ANALYSE_MOTS_PROBLEMATIQUES.md b/ConfluentTranslator/ANALYSE_MOTS_PROBLEMATIQUES.md new file mode 100644 index 0000000..936792d --- /dev/null +++ b/ConfluentTranslator/ANALYSE_MOTS_PROBLEMATIQUES.md @@ -0,0 +1,241 @@ +# Analyse des mots problématiques du texte de test + +Date: 2025-11-29 + +## Contexte + +Le texte de test (122 tokens) contient 10 mots non trouvés. Analyse approfondie de chaque mot pour déterminer s'ils sont légitimes ou erronés. + +--- + +## Mots analysés + +### 1. `tiru` ✅ RÉSOLU +**Statut**: Légitime - Nombre existant +**Source**: `ancien-confluent/lexique/22-nombres.json` ligne 32 +**Valeur**: 3 (trois) +**Contexte dans le texte**: `No kekutoka tiru okitori...` = "Dans antres-des-échos trois guerrier..." +**Action**: ✅ Ajouter au dictionnaire principal si absent + +--- + +### 2. `kisiran` vs `kisaran` ⚠️ INCOHÉRENCE DÉTECTÉE + +**Analyse comparative**: + +| Forme | Statut | Source | Décomposition | +|-------|--------|--------|---------------| +| `kisiran` | ✅ Trouvé dans le texte (ligne 8) | Texte de test | `kis-iran` (transmettre + ?) | +| `kisaran` | ❌ Non trouvé (ligne 10) | Texte de test | `kis-aran` (transmettre + ?) | + +**Verbe de base**: +- `kisun` = transmettre, enseigner (verbe CVCVC) +- Racine: `kisu` +- Forme liée: `kis` +- Source: `ancien-confluent/lexique/06-actions.json` ligne 123 + +**Problème**: +- Le texte contient **deux formes différentes**: `kisiran` ET `kisaran` +- Aucun des deux suffixes (`iran`, `aran`) n'est documenté dans la grammaire +- Seul `iran` apparaît dans `radicalMatcher.js` comme "dérivé nominal" + +**Hypothèses**: +1. **Typo**: `kisaran` est une erreur de frappe pour `kisiran` +2. **Variantes**: Deux formes différentes intentionnelles (non documentées) +3. **Erreur de conception**: Suffixes inventés sans base linguistique + +**Recommandation**: ⚠️ Vérifier avec le créateur du texte - probablement une typo + +--- + +### 3. `uravis` ❌ NON DOCUMENTÉ + +**Décomposition supposée**: `ura-vis` + +**Racine `ura`**: +- ✅ Existe: Racine sacrée "eau, flux, vie" +- Source: `ancien-confluent/lexique/01-racines-sacrees.json` +- Forme liée: `ur` + +**Suffixe `vis`**: +- ❌ N'existe PAS dans la grammaire officielle +- Absent de tous les conjugateurs documentés +- Aucune occurrence dans le lexique + +**Contexte**: `Va vokiueka vo kala okimako uravis at` + +**Hypothèses**: +1. Mot complet non documenté (pas un dérivé) +2. Composition mal formée +3. Erreur dans le texte de test + +**Recommandation**: ❌ À corriger ou documenter + +--- + +### 4. `sukamori` ❌ NON DOCUMENTÉ + +**Décomposition supposée**: `suk-a-mori` + +**Racine `suk`**: +- ✅ Existe: "feu, forge" +- Verbe: `sukam` = forger +- Source: `ancien-confluent/lexique/06-actions.json` ligne 334 +- Forme liée: `suk` + +**Liaison `a`**: +- ✅ Liaison sacrée existante (relation) + +**Racine `mori`**: +- ❌ N'existe PAS dans le lexique +- Recherche exhaustive: aucune occurrence + +**Contexte**: `Va maku sukamori vo varu mako su zo sukam ul at` += "Le grand sukamori l'arme grande... a forgé (passé)" + +**Hypothèses**: +1. `mori` = racine non documentée (forgeron? artisan?) +2. Composition erronée +3. Devrait être autre chose + +**Recommandation**: ❌ Racine `mori` manquante - à documenter ou corriger + +--- + +### 5. `uraal` ❌ NON DOCUMENTÉ + +**Décomposition supposée**: `ur-aa-l` ou `ura-al` + +**Racine `ur`/`ura`**: +- ✅ Existe: Racine sacrée "eau, flux, vie" +- Forme liée: `ur` + +**Liaison `aa`**: +- ✅ Liaison sacrée existante (relation forte) + +**Partie finale `l` ou racine `al`**: +- ❌ Aucune racine `al` trouvée dans le lexique +- Un simple `l` ne peut pas être une racine (trop court) + +**Contexte**: `Na tova na uraal kisaran ui...` + +**Hypothèses**: +1. Composition mal formée +2. Racine `al` non documentée +3. Erreur de construction + +**Recommandation**: ❌ Structure invalide - à corriger + +--- + +### 6. `kala` ❌ NON DOCUMENTÉ + +**Recherche**: +- ❌ Aucune occurrence dans tout le lexique +- Pas de racine `kal` trouvée +- Structure valide (CV-CV) mais absente + +**Contexte**: `Va vokiueka vo kala okimako uravis at` + +**Hypothèses**: +1. Mot non documenté (adjectif? nom?) +2. Erreur ou invention + +**Recommandation**: ❌ À documenter ou corriger + +--- + +### 7. `vulu` ❌ NON DOCUMENTÉ + +**Recherche**: +- ❌ Aucune occurrence dans tout le lexique +- Pas de racine `vul` trouvée +- Structure valide (CV-CV) mais absente + +**Contexte**: `vo mako vulu pasak ok` + +**Hypothèses**: +1. Mot non documenté (adjectif? nom?) +2. Erreur ou invention + +**Recommandation**: ❌ À documenter ou corriger + +--- + +## Résumé des découvertes + +### Mots légitimes (1/7) +| Mot | Statut | Source | Action | +|-----|--------|--------|--------| +| `tiru` | ✅ Nombre = 3 | `22-nombres.json` | Ajouter au lexique principal | + +### Problèmes détectés (6/7) + +| Mot | Type de problème | Sévérité | Action recommandée | +|-----|------------------|----------|-------------------| +| `kisaran` | Suffixe inexistant `aran` | ⚠️ Haute | Probablement typo de `kisiran` | +| `uravis` | Suffixe inexistant `vis` | ⚠️ Haute | Corriger ou documenter | +| `sukamori` | Racine `mori` manquante | 🔴 Critique | Documenter `mori` ou corriger | +| `uraal` | Composition invalide | 🔴 Critique | Corriger la structure | +| `kala` | Mot totalement absent | 🔴 Critique | Documenter ou supprimer | +| `vulu` | Mot totalement absent | 🔴 Critique | Documenter ou supprimer | + +--- + +## Recommandations + +### Option A: Corriger le texte de test +Remplacer les mots non documentés par des équivalents conformes à la grammaire établie. + +**Avantages**: +- Maintient la cohérence linguistique +- Texte de test devient une référence fiable +- Coverage peut atteindre 98-100% + +**Inconvénients**: +- Perd le texte original si celui-ci était intentionnel + +### Option B: Documenter les nouveaux mots +Si ces mots sont des extensions légitimes non documentées, les ajouter au lexique. + +**Avantages**: +- Enrichit la langue +- Préserve le texte original + +**Inconvénients**: +- Nécessite validation linguistique +- Doit définir les suffixes `aran` et `vis` grammaticalement +- Risque d'incohérences si ajoutés sans réflexion + +### Option C: Validation hybride +1. ✅ Ajouter `tiru` au dictionnaire principal (nombre légitime) +2. ⚠️ Corriger `kisaran` → `kisiran` (probable typo) +3. 🔴 Demander validation pour `sukamori`, `uraal`, `kala`, `vulu`, `uravis` + +--- + +## Impact sur le coverage + +### Scénario actuel (avec ve/eol ajoutés) +- Coverage: **94%** (114/122) +- Mots non trouvés: 8 + +### Scénario A: Correction du texte +- Coverage potentiel: **98-100%** +- Dépend des corrections apportées + +### Scénario B: Documentation des nouveaux mots +- Coverage potentiel: **98-100%** +- Mais risque d'incohérences grammaticales + +--- + +## Conclusion + +Le texte de test contient **6 mots problématiques non conformes** à la grammaire documentée. Avant de pousser le coverage à 95%+, il est **critique** de: + +1. ✅ Valider l'origine et l'intentionnalité du texte +2. ⚠️ Décider: correction vs documentation +3. 🔴 Ne PAS ajouter de suffixes (`aran`, `vis`) sans validation linguistique formelle + +**Statut actuel du traducteur**: ✅ Robuste et fonctionnel (94% coverage avec grammaire validée)