Analyse détaillée des mots problématiques du texte de test

Investigation complète des 10 mots non trouvés (8 après ajout ve/eol):

Découvertes:
- tiru:  Légitime (nombre = 3 dans 22-nombres.json)
- kisaran vs kisiran: ⚠️ Deux formes dans le texte, probable typo
- uravis:  Suffixe 'vis' inexistant dans grammaire
- sukamori:  Racine 'mori' totalement absente du lexique
- uraal:  Composition invalide (pas de racine 'al')
- kala:  Totalement absent
- vulu:  Totalement absent

Recommandations:
- Option A: Corriger le texte de test
- Option B: Documenter les nouveaux mots si légitimes
- Option C: Hybride (ajouter tiru, corriger kisaran, valider reste)

Document: ConfluentTranslator/ANALYSE_MOTS_PROBLEMATIQUES.md

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
This commit is contained in:
StillHammer 2025-12-01 07:47:11 +08:00
parent 889cd24319
commit e93c2f485b

View File

@ -0,0 +1,241 @@
# Analyse des mots problématiques du texte de test
Date: 2025-11-29
## Contexte
Le texte de test (122 tokens) contient 10 mots non trouvés. Analyse approfondie de chaque mot pour déterminer s'ils sont légitimes ou erronés.
---
## Mots analysés
### 1. `tiru` ✅ RÉSOLU
**Statut**: Légitime - Nombre existant
**Source**: `ancien-confluent/lexique/22-nombres.json` ligne 32
**Valeur**: 3 (trois)
**Contexte dans le texte**: `No kekutoka tiru okitori...` = "Dans antres-des-échos trois guerrier..."
**Action**: ✅ Ajouter au dictionnaire principal si absent
---
### 2. `kisiran` vs `kisaran` ⚠️ INCOHÉRENCE DÉTECTÉE
**Analyse comparative**:
| Forme | Statut | Source | Décomposition |
|-------|--------|--------|---------------|
| `kisiran` | ✅ Trouvé dans le texte (ligne 8) | Texte de test | `kis-iran` (transmettre + ?) |
| `kisaran` | ❌ Non trouvé (ligne 10) | Texte de test | `kis-aran` (transmettre + ?) |
**Verbe de base**:
- `kisun` = transmettre, enseigner (verbe CVCVC)
- Racine: `kisu`
- Forme liée: `kis`
- Source: `ancien-confluent/lexique/06-actions.json` ligne 123
**Problème**:
- Le texte contient **deux formes différentes**: `kisiran` ET `kisaran`
- Aucun des deux suffixes (`iran`, `aran`) n'est documenté dans la grammaire
- Seul `iran` apparaît dans `radicalMatcher.js` comme "dérivé nominal"
**Hypothèses**:
1. **Typo**: `kisaran` est une erreur de frappe pour `kisiran`
2. **Variantes**: Deux formes différentes intentionnelles (non documentées)
3. **Erreur de conception**: Suffixes inventés sans base linguistique
**Recommandation**: ⚠️ Vérifier avec le créateur du texte - probablement une typo
---
### 3. `uravis` ❌ NON DOCUMENTÉ
**Décomposition supposée**: `ura-vis`
**Racine `ura`**:
- ✅ Existe: Racine sacrée "eau, flux, vie"
- Source: `ancien-confluent/lexique/01-racines-sacrees.json`
- Forme liée: `ur`
**Suffixe `vis`**:
- ❌ N'existe PAS dans la grammaire officielle
- Absent de tous les conjugateurs documentés
- Aucune occurrence dans le lexique
**Contexte**: `Va vokiueka vo kala okimako uravis at`
**Hypothèses**:
1. Mot complet non documenté (pas un dérivé)
2. Composition mal formée
3. Erreur dans le texte de test
**Recommandation**: ❌ À corriger ou documenter
---
### 4. `sukamori` ❌ NON DOCUMENTÉ
**Décomposition supposée**: `suk-a-mori`
**Racine `suk`**:
- ✅ Existe: "feu, forge"
- Verbe: `sukam` = forger
- Source: `ancien-confluent/lexique/06-actions.json` ligne 334
- Forme liée: `suk`
**Liaison `a`**:
- ✅ Liaison sacrée existante (relation)
**Racine `mori`**:
- ❌ N'existe PAS dans le lexique
- Recherche exhaustive: aucune occurrence
**Contexte**: `Va maku sukamori vo varu mako su zo sukam ul at`
= "Le grand sukamori l'arme grande... a forgé (passé)"
**Hypothèses**:
1. `mori` = racine non documentée (forgeron? artisan?)
2. Composition erronée
3. Devrait être autre chose
**Recommandation**: ❌ Racine `mori` manquante - à documenter ou corriger
---
### 5. `uraal` ❌ NON DOCUMENTÉ
**Décomposition supposée**: `ur-aa-l` ou `ura-al`
**Racine `ur`/`ura`**:
- ✅ Existe: Racine sacrée "eau, flux, vie"
- Forme liée: `ur`
**Liaison `aa`**:
- ✅ Liaison sacrée existante (relation forte)
**Partie finale `l` ou racine `al`**:
- ❌ Aucune racine `al` trouvée dans le lexique
- Un simple `l` ne peut pas être une racine (trop court)
**Contexte**: `Na tova na uraal kisaran ui...`
**Hypothèses**:
1. Composition mal formée
2. Racine `al` non documentée
3. Erreur de construction
**Recommandation**: ❌ Structure invalide - à corriger
---
### 6. `kala` ❌ NON DOCUMENTÉ
**Recherche**:
- ❌ Aucune occurrence dans tout le lexique
- Pas de racine `kal` trouvée
- Structure valide (CV-CV) mais absente
**Contexte**: `Va vokiueka vo kala okimako uravis at`
**Hypothèses**:
1. Mot non documenté (adjectif? nom?)
2. Erreur ou invention
**Recommandation**: ❌ À documenter ou corriger
---
### 7. `vulu` ❌ NON DOCUMENTÉ
**Recherche**:
- ❌ Aucune occurrence dans tout le lexique
- Pas de racine `vul` trouvée
- Structure valide (CV-CV) mais absente
**Contexte**: `vo mako vulu pasak ok`
**Hypothèses**:
1. Mot non documenté (adjectif? nom?)
2. Erreur ou invention
**Recommandation**: ❌ À documenter ou corriger
---
## Résumé des découvertes
### Mots légitimes (1/7)
| Mot | Statut | Source | Action |
|-----|--------|--------|--------|
| `tiru` | ✅ Nombre = 3 | `22-nombres.json` | Ajouter au lexique principal |
### Problèmes détectés (6/7)
| Mot | Type de problème | Sévérité | Action recommandée |
|-----|------------------|----------|-------------------|
| `kisaran` | Suffixe inexistant `aran` | ⚠️ Haute | Probablement typo de `kisiran` |
| `uravis` | Suffixe inexistant `vis` | ⚠️ Haute | Corriger ou documenter |
| `sukamori` | Racine `mori` manquante | 🔴 Critique | Documenter `mori` ou corriger |
| `uraal` | Composition invalide | 🔴 Critique | Corriger la structure |
| `kala` | Mot totalement absent | 🔴 Critique | Documenter ou supprimer |
| `vulu` | Mot totalement absent | 🔴 Critique | Documenter ou supprimer |
---
## Recommandations
### Option A: Corriger le texte de test
Remplacer les mots non documentés par des équivalents conformes à la grammaire établie.
**Avantages**:
- Maintient la cohérence linguistique
- Texte de test devient une référence fiable
- Coverage peut atteindre 98-100%
**Inconvénients**:
- Perd le texte original si celui-ci était intentionnel
### Option B: Documenter les nouveaux mots
Si ces mots sont des extensions légitimes non documentées, les ajouter au lexique.
**Avantages**:
- Enrichit la langue
- Préserve le texte original
**Inconvénients**:
- Nécessite validation linguistique
- Doit définir les suffixes `aran` et `vis` grammaticalement
- Risque d'incohérences si ajoutés sans réflexion
### Option C: Validation hybride
1. ✅ Ajouter `tiru` au dictionnaire principal (nombre légitime)
2. ⚠️ Corriger `kisaran``kisiran` (probable typo)
3. 🔴 Demander validation pour `sukamori`, `uraal`, `kala`, `vulu`, `uravis`
---
## Impact sur le coverage
### Scénario actuel (avec ve/eol ajoutés)
- Coverage: **94%** (114/122)
- Mots non trouvés: 8
### Scénario A: Correction du texte
- Coverage potentiel: **98-100%**
- Dépend des corrections apportées
### Scénario B: Documentation des nouveaux mots
- Coverage potentiel: **98-100%**
- Mais risque d'incohérences grammaticales
---
## Conclusion
Le texte de test contient **6 mots problématiques non conformes** à la grammaire documentée. Avant de pousser le coverage à 95%+, il est **critique** de:
1. ✅ Valider l'origine et l'intentionnalité du texte
2. ⚠️ Décider: correction vs documentation
3. 🔴 Ne PAS ajouter de suffixes (`aran`, `vis`) sans validation linguistique formelle
**Statut actuel du traducteur**: ✅ Robuste et fonctionnel (94% coverage avec grammaire validée)