Analyse détaillée des mots problématiques du texte de test
Investigation complète des 10 mots non trouvés (8 après ajout ve/eol): Découvertes: - tiru: ✅ Légitime (nombre = 3 dans 22-nombres.json) - kisaran vs kisiran: ⚠️ Deux formes dans le texte, probable typo - uravis: ❌ Suffixe 'vis' inexistant dans grammaire - sukamori: ❌ Racine 'mori' totalement absente du lexique - uraal: ❌ Composition invalide (pas de racine 'al') - kala: ❌ Totalement absent - vulu: ❌ Totalement absent Recommandations: - Option A: Corriger le texte de test - Option B: Documenter les nouveaux mots si légitimes - Option C: Hybride (ajouter tiru, corriger kisaran, valider reste) Document: ConfluentTranslator/ANALYSE_MOTS_PROBLEMATIQUES.md 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
This commit is contained in:
parent
889cd24319
commit
e93c2f485b
241
ConfluentTranslator/ANALYSE_MOTS_PROBLEMATIQUES.md
Normal file
241
ConfluentTranslator/ANALYSE_MOTS_PROBLEMATIQUES.md
Normal file
@ -0,0 +1,241 @@
|
||||
# Analyse des mots problématiques du texte de test
|
||||
|
||||
Date: 2025-11-29
|
||||
|
||||
## Contexte
|
||||
|
||||
Le texte de test (122 tokens) contient 10 mots non trouvés. Analyse approfondie de chaque mot pour déterminer s'ils sont légitimes ou erronés.
|
||||
|
||||
---
|
||||
|
||||
## Mots analysés
|
||||
|
||||
### 1. `tiru` ✅ RÉSOLU
|
||||
**Statut**: Légitime - Nombre existant
|
||||
**Source**: `ancien-confluent/lexique/22-nombres.json` ligne 32
|
||||
**Valeur**: 3 (trois)
|
||||
**Contexte dans le texte**: `No kekutoka tiru okitori...` = "Dans antres-des-échos trois guerrier..."
|
||||
**Action**: ✅ Ajouter au dictionnaire principal si absent
|
||||
|
||||
---
|
||||
|
||||
### 2. `kisiran` vs `kisaran` ⚠️ INCOHÉRENCE DÉTECTÉE
|
||||
|
||||
**Analyse comparative**:
|
||||
|
||||
| Forme | Statut | Source | Décomposition |
|
||||
|-------|--------|--------|---------------|
|
||||
| `kisiran` | ✅ Trouvé dans le texte (ligne 8) | Texte de test | `kis-iran` (transmettre + ?) |
|
||||
| `kisaran` | ❌ Non trouvé (ligne 10) | Texte de test | `kis-aran` (transmettre + ?) |
|
||||
|
||||
**Verbe de base**:
|
||||
- `kisun` = transmettre, enseigner (verbe CVCVC)
|
||||
- Racine: `kisu`
|
||||
- Forme liée: `kis`
|
||||
- Source: `ancien-confluent/lexique/06-actions.json` ligne 123
|
||||
|
||||
**Problème**:
|
||||
- Le texte contient **deux formes différentes**: `kisiran` ET `kisaran`
|
||||
- Aucun des deux suffixes (`iran`, `aran`) n'est documenté dans la grammaire
|
||||
- Seul `iran` apparaît dans `radicalMatcher.js` comme "dérivé nominal"
|
||||
|
||||
**Hypothèses**:
|
||||
1. **Typo**: `kisaran` est une erreur de frappe pour `kisiran`
|
||||
2. **Variantes**: Deux formes différentes intentionnelles (non documentées)
|
||||
3. **Erreur de conception**: Suffixes inventés sans base linguistique
|
||||
|
||||
**Recommandation**: ⚠️ Vérifier avec le créateur du texte - probablement une typo
|
||||
|
||||
---
|
||||
|
||||
### 3. `uravis` ❌ NON DOCUMENTÉ
|
||||
|
||||
**Décomposition supposée**: `ura-vis`
|
||||
|
||||
**Racine `ura`**:
|
||||
- ✅ Existe: Racine sacrée "eau, flux, vie"
|
||||
- Source: `ancien-confluent/lexique/01-racines-sacrees.json`
|
||||
- Forme liée: `ur`
|
||||
|
||||
**Suffixe `vis`**:
|
||||
- ❌ N'existe PAS dans la grammaire officielle
|
||||
- Absent de tous les conjugateurs documentés
|
||||
- Aucune occurrence dans le lexique
|
||||
|
||||
**Contexte**: `Va vokiueka vo kala okimako uravis at`
|
||||
|
||||
**Hypothèses**:
|
||||
1. Mot complet non documenté (pas un dérivé)
|
||||
2. Composition mal formée
|
||||
3. Erreur dans le texte de test
|
||||
|
||||
**Recommandation**: ❌ À corriger ou documenter
|
||||
|
||||
---
|
||||
|
||||
### 4. `sukamori` ❌ NON DOCUMENTÉ
|
||||
|
||||
**Décomposition supposée**: `suk-a-mori`
|
||||
|
||||
**Racine `suk`**:
|
||||
- ✅ Existe: "feu, forge"
|
||||
- Verbe: `sukam` = forger
|
||||
- Source: `ancien-confluent/lexique/06-actions.json` ligne 334
|
||||
- Forme liée: `suk`
|
||||
|
||||
**Liaison `a`**:
|
||||
- ✅ Liaison sacrée existante (relation)
|
||||
|
||||
**Racine `mori`**:
|
||||
- ❌ N'existe PAS dans le lexique
|
||||
- Recherche exhaustive: aucune occurrence
|
||||
|
||||
**Contexte**: `Va maku sukamori vo varu mako su zo sukam ul at`
|
||||
= "Le grand sukamori l'arme grande... a forgé (passé)"
|
||||
|
||||
**Hypothèses**:
|
||||
1. `mori` = racine non documentée (forgeron? artisan?)
|
||||
2. Composition erronée
|
||||
3. Devrait être autre chose
|
||||
|
||||
**Recommandation**: ❌ Racine `mori` manquante - à documenter ou corriger
|
||||
|
||||
---
|
||||
|
||||
### 5. `uraal` ❌ NON DOCUMENTÉ
|
||||
|
||||
**Décomposition supposée**: `ur-aa-l` ou `ura-al`
|
||||
|
||||
**Racine `ur`/`ura`**:
|
||||
- ✅ Existe: Racine sacrée "eau, flux, vie"
|
||||
- Forme liée: `ur`
|
||||
|
||||
**Liaison `aa`**:
|
||||
- ✅ Liaison sacrée existante (relation forte)
|
||||
|
||||
**Partie finale `l` ou racine `al`**:
|
||||
- ❌ Aucune racine `al` trouvée dans le lexique
|
||||
- Un simple `l` ne peut pas être une racine (trop court)
|
||||
|
||||
**Contexte**: `Na tova na uraal kisaran ui...`
|
||||
|
||||
**Hypothèses**:
|
||||
1. Composition mal formée
|
||||
2. Racine `al` non documentée
|
||||
3. Erreur de construction
|
||||
|
||||
**Recommandation**: ❌ Structure invalide - à corriger
|
||||
|
||||
---
|
||||
|
||||
### 6. `kala` ❌ NON DOCUMENTÉ
|
||||
|
||||
**Recherche**:
|
||||
- ❌ Aucune occurrence dans tout le lexique
|
||||
- Pas de racine `kal` trouvée
|
||||
- Structure valide (CV-CV) mais absente
|
||||
|
||||
**Contexte**: `Va vokiueka vo kala okimako uravis at`
|
||||
|
||||
**Hypothèses**:
|
||||
1. Mot non documenté (adjectif? nom?)
|
||||
2. Erreur ou invention
|
||||
|
||||
**Recommandation**: ❌ À documenter ou corriger
|
||||
|
||||
---
|
||||
|
||||
### 7. `vulu` ❌ NON DOCUMENTÉ
|
||||
|
||||
**Recherche**:
|
||||
- ❌ Aucune occurrence dans tout le lexique
|
||||
- Pas de racine `vul` trouvée
|
||||
- Structure valide (CV-CV) mais absente
|
||||
|
||||
**Contexte**: `vo mako vulu pasak ok`
|
||||
|
||||
**Hypothèses**:
|
||||
1. Mot non documenté (adjectif? nom?)
|
||||
2. Erreur ou invention
|
||||
|
||||
**Recommandation**: ❌ À documenter ou corriger
|
||||
|
||||
---
|
||||
|
||||
## Résumé des découvertes
|
||||
|
||||
### Mots légitimes (1/7)
|
||||
| Mot | Statut | Source | Action |
|
||||
|-----|--------|--------|--------|
|
||||
| `tiru` | ✅ Nombre = 3 | `22-nombres.json` | Ajouter au lexique principal |
|
||||
|
||||
### Problèmes détectés (6/7)
|
||||
|
||||
| Mot | Type de problème | Sévérité | Action recommandée |
|
||||
|-----|------------------|----------|-------------------|
|
||||
| `kisaran` | Suffixe inexistant `aran` | ⚠️ Haute | Probablement typo de `kisiran` |
|
||||
| `uravis` | Suffixe inexistant `vis` | ⚠️ Haute | Corriger ou documenter |
|
||||
| `sukamori` | Racine `mori` manquante | 🔴 Critique | Documenter `mori` ou corriger |
|
||||
| `uraal` | Composition invalide | 🔴 Critique | Corriger la structure |
|
||||
| `kala` | Mot totalement absent | 🔴 Critique | Documenter ou supprimer |
|
||||
| `vulu` | Mot totalement absent | 🔴 Critique | Documenter ou supprimer |
|
||||
|
||||
---
|
||||
|
||||
## Recommandations
|
||||
|
||||
### Option A: Corriger le texte de test
|
||||
Remplacer les mots non documentés par des équivalents conformes à la grammaire établie.
|
||||
|
||||
**Avantages**:
|
||||
- Maintient la cohérence linguistique
|
||||
- Texte de test devient une référence fiable
|
||||
- Coverage peut atteindre 98-100%
|
||||
|
||||
**Inconvénients**:
|
||||
- Perd le texte original si celui-ci était intentionnel
|
||||
|
||||
### Option B: Documenter les nouveaux mots
|
||||
Si ces mots sont des extensions légitimes non documentées, les ajouter au lexique.
|
||||
|
||||
**Avantages**:
|
||||
- Enrichit la langue
|
||||
- Préserve le texte original
|
||||
|
||||
**Inconvénients**:
|
||||
- Nécessite validation linguistique
|
||||
- Doit définir les suffixes `aran` et `vis` grammaticalement
|
||||
- Risque d'incohérences si ajoutés sans réflexion
|
||||
|
||||
### Option C: Validation hybride
|
||||
1. ✅ Ajouter `tiru` au dictionnaire principal (nombre légitime)
|
||||
2. ⚠️ Corriger `kisaran` → `kisiran` (probable typo)
|
||||
3. 🔴 Demander validation pour `sukamori`, `uraal`, `kala`, `vulu`, `uravis`
|
||||
|
||||
---
|
||||
|
||||
## Impact sur le coverage
|
||||
|
||||
### Scénario actuel (avec ve/eol ajoutés)
|
||||
- Coverage: **94%** (114/122)
|
||||
- Mots non trouvés: 8
|
||||
|
||||
### Scénario A: Correction du texte
|
||||
- Coverage potentiel: **98-100%**
|
||||
- Dépend des corrections apportées
|
||||
|
||||
### Scénario B: Documentation des nouveaux mots
|
||||
- Coverage potentiel: **98-100%**
|
||||
- Mais risque d'incohérences grammaticales
|
||||
|
||||
---
|
||||
|
||||
## Conclusion
|
||||
|
||||
Le texte de test contient **6 mots problématiques non conformes** à la grammaire documentée. Avant de pousser le coverage à 95%+, il est **critique** de:
|
||||
|
||||
1. ✅ Valider l'origine et l'intentionnalité du texte
|
||||
2. ⚠️ Décider: correction vs documentation
|
||||
3. 🔴 Ne PAS ajouter de suffixes (`aran`, `vis`) sans validation linguistique formelle
|
||||
|
||||
**Statut actuel du traducteur**: ✅ Robuste et fonctionnel (94% coverage avec grammaire validée)
|
||||
Loading…
Reference in New Issue
Block a user