# Pipeline OCR - Manuels de Chinois Pipeline automatisé pour extraire le texte des manuels de chinois scannés (PDF) avec PaddleOCR et correction IA par GPT-4o-mini. ## Installation ### 1. Installer les dépendances Python ```bash pip install -r requirements-ocr.txt ``` ### 2. Installer poppler (pour pdf2image) **Linux (Ubuntu/Debian):** ```bash sudo apt-get install poppler-utils ``` **Windows:** - Télécharger depuis: https://github.com/oschwartz10612/poppler-windows/releases - Ajouter le dossier `bin` au PATH **macOS:** ```bash brew install poppler ``` ### 3. Configuration (optionnelle - pour correction IA) Créer un fichier `.env` à la racine du projet : ```bash cp .env.example .env ``` Puis éditer `.env` et ajouter votre clé API OpenAI : ``` OPENAI_API_KEY=sk-your-api-key-here ``` ## Utilisation ### Mode Auto (traiter tous les PDFs) ```bash python ocr_pipeline.py --mode auto ``` Ceci va traiter tous les PDFs dans `Raw/*/PDF/` et créer les fichiers dans `Raw/*/OCR/` ### Mode Manuel (traiter un fichier spécifique) ```bash python ocr_pipeline.py --mode manual --input "Raw/DevelopChinese/PDF/听力Chapter1.pdf" ``` ### Avec correction IA (recommandé !) ```bash python ocr_pipeline.py --mode manual --input "Raw/Hanyu Jiaocheng/PDF/汉语Chapter1.pdf" --ai-correction ``` La correction IA utilise GPT-4o-mini pour : - Corriger les erreurs OCR (caractères manquants, mal reconnus) - Vérifier la cohérence pinyin/caractères chinois - Compléter les phrases tronquées - Corriger la ponctuation chinoise ### Avec GPU (plus rapide si GPU disponible) ```bash python ocr_pipeline.py --mode auto --gpu ``` ### Options avancées ```bash # Mode auto avec correction IA python ocr_pipeline.py --mode auto --ai-correction # Changer la résolution de conversion (plus élevé = meilleur qualité mais plus lent) python ocr_pipeline.py --mode auto --dpi 400 # Spécifier un dossier de sortie personnalisé python ocr_pipeline.py --mode manual --input "Raw/Kouyu/PDF/test.pdf" --output "Output/Test" # Tout ensemble python ocr_pipeline.py --mode auto --ai-correction --gpu --dpi 400 ``` ## Structure des fichiers ### Avant traitement: ``` Raw/ ├── DevelopChinese/ │ └── PDF/ │ ├── 听力Chapter1.pdf │ └── ... ├── Hanyu Jiaocheng/ │ └── PDF/ └── ... ``` ### Après traitement: ``` Raw/ ├── DevelopChinese/ │ ├── PDF/ │ │ ├── 听力Chapter1.pdf │ │ └── ... │ └── OCR/ │ ├── 听力Chapter1.txt # Texte brut OCR │ ├── 听力Chapter1_corrected.txt # Texte corrigé par IA (si --ai-correction) │ ├── 听力Chapter1.json # Résultats détaillés avec coordonnées │ └── ... ├── Hanyu Jiaocheng/ │ ├── PDF/ │ └── OCR/ └── ... ``` ## Formats de sortie ### Fichier .txt Texte brut extrait par OCR, organisé par page. ### Fichier _corrected.txt (si --ai-correction) Texte corrigé par GPT-4o-mini : - Erreurs OCR corrigées - Phrases complétées - Ponctuation chinoise corrigée - Cohérence pinyin/caractères vérifiée ### Fichier .json Résultats détaillés incluant: - Texte par page (brut et corrigé) - Coordonnées des boîtes de détection - Scores de confiance - Métadonnées (date de traitement, source, correction IA activée) ## Performance - **Sans GPU**: ~30-60 secondes par page (selon la densité de texte) - **Avec GPU**: ~10-20 secondes par page - **DPI recommandé**: 300 (bon compromis qualité/vitesse) ## Dépannage ### Erreur: "poppler not found" Installez poppler (voir section Installation ci-dessus) ### Mémoire insuffisante Réduisez le DPI: `--dpi 200` ### Résultats de faible qualité Augmentez le DPI: `--dpi 400` ou `--dpi 600` ## Notes - Le script détecte automatiquement les caractères chinois et anglais - Les images tournées sont automatiquement corrigées - Le premier lancement peut prendre du temps (téléchargement des modèles)