StillHammer f288156869 docs: Add test conditions context to debug plan

Document that the initial transcript analysis was done under degraded conditions (multiple voices, variable distances/volumes, poor mic) which may explain some of the segmentation issues.

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

2025-11-23 20:02:40 +08:00

2.1 KiB

Raw Blame History

Plan de Debug SecondVoice

Problème observé

Transcript du 2025-11-23 (5:31 min, 75 segments) montre :

Phrases fragmentées ("我很。" → "Je suis.")
Erreurs de transcription ("两个老鼠求我" - deux souris me supplient)
Segments d'un ou deux mots sans contexte
Hallucinations Whisper ("汪汪汪汪")

Contexte du test

Conditions très dégradées :

Voix multiples
Distances variables du micro
Volumes variables
Discussion rapide
Mauvais micro

Ces conditions expliquent potentiellement une partie des résultats. Les hypothèses doivent être validées dans des conditions plus contrôlées également.

Hypothèses (à valider)

VAD coupe trop tôt - Le Voice Activity Detection déclenche la fin de segment trop rapidement, coupant les phrases en plein milieu
Segments trop courts - Whisper n'a pas assez de contexte audio pour transcrire correctement le chinois
Bruit ambiant - Du bruit est interprété comme de la parole (segment 22 mentionne "太多声音了")
Perte de contexte inter-segments - Chaque segment est traité isolément, Whisper ne peut pas utiliser le contexte des phrases précédentes

Plan : Système de logging par session

Objectif

Collecter des données exploitables pour identifier la source des problèmes.

Structure

sessions/
└── YYYY-MM-DD_HHMMSS/
    ├── session.json           # Métadonnées globales
    ├── segments/
    │   ├── 001.json
    │   ├── 002.json
    │   └── ...
    └── transcript.txt         # Export final (existant)

Format segment JSON

{
  "id": 1,
  "chinese": "两个老鼠求我",
  "french": "Deux souris me supplient"
}

À définir

Quelles métadonnées audio ajouter ? (durée, RMS, timestamps)
Sauvegarder les fichiers audio .opus par segment ?
Infos Whisper ? (latence, modèle, filtered)
Infos Claude ? (latence, modèle)

Prochaines étapes

Implémenter le système de logging basique (JSON chinois/français)
Analyser les patterns dans les données
Enrichir avec plus de métadonnées si nécessaire

2.1 KiB Raw Blame History