Téléverser les fichiers vers "/"

2025-10-27 13:26:05 +00:00
parent 91c6df7457
commit 7787331d6f
4 changed files with 354 additions and 1 deletions
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -0,0 +1,98 @@
 # Changelog - FixEncoding pour NZBGet
 ## Version 1.1 - 2025-10-27
 ### 🐛 Corrections de bugs
 - **Correction du bug de l'espace insécable** : Le script détecte maintenant correctement le caractère "à" encodé comme `Ã\xa0` (Ã + espace insécable U+00A0)
 - Amélioration de la détection avec double vérification (pattern + test de conversion)
 ### ✨ Améliorations
 - Ajout de patterns supplémentaires pour les majuscules accentuées
 - Liste étendue de patterns : É, È, Ê, Î, Ô, Ù, Û, Ç, Â, À
 - La détection vérifie maintenant que la conversion produit un résultat différent
 ### 🔧 Outils ajoutés
 - **diagnose_filename.py** : Script de diagnostic pour analyser les noms de fichiers problématiques
  - Affiche les octets en hexadécimal
  - Détecte les caractères suspects (espaces insécables, etc.)
  - Teste la conversion et affiche le résultat
  - Analyse des dossiers complets
 ### 📚 Documentation
 - Ajout de **PROBLEME_FICHIER_NON_CORRIGE.md** : Guide détaillé sur les cas spéciaux
 - Amélioration du README avec section de diagnostic
 - Exemples de cas d'usage supplémentaires
 ### 🔍 Détails techniques
 **Problème corrigé :**
 Le caractère UTF-8 "à" (U+00E0) est encodé avec les octets `0xC3 0xA0`. 
 Quand mal interprété comme ISO-8859-1 :
 - `0xC3` → "Ã" (U+00C3)
 - `0xA0` → espace insécable (U+00A0, non-breaking space)
 L'espace insécable est invisible mais différent d'un espace normal (U+0020).
 **Solution :**
 - Ajout du pattern `'Ã\xa0'` à la liste de détection
 - Double vérification : si un pattern est trouvé, on teste si `filename.encode('iso-8859-1').decode('utf-8')` produit un résultat différent
 - Si la conversion échoue, le fichier est ignoré (protection contre les faux positifs)
 ---
 ## Version 1.0 - 2025-10-27
 ### 🎉 Version initiale
 **Fonctionnalités :**
 - Détection et correction automatique des problèmes d'encodage UTF-8 → ISO-8859-1
 - Support des caractères accentués français : é, è, ê, à, â, ç, ô, etc.
 - Options configurables via NZBGet :
  - Debug : mode verbose pour les logs
  - FileExtensions : filtre par extension
  - DryRun : mode simulation
 - Script de test standalone (test_fix_encoding.py)
 - Documentation complète (README.md, QUICKSTART.md)
 - Compatible multiplateforme (Linux, Windows, macOS, Docker, NAS)
 - Traitement récursif des sous-dossiers
 - Gestion sécurisée des erreurs
 - Exit codes conformes aux standards NZBGet
 **Patterns supportés (v1.0) :**
 - Ã© → é
 - Ã¨ → è
 - Ãª → ê
 - Ã« → ë
 - Ã  → à
 - Ã¢ → â
 - Ã¤ → ä
 - Ã§ → ç
 - Ã´ → ô
 - Ã¶ → ö
 - Ã¹ → ù
 - Ã» → û
 - Ã¼ → ü
 - Ã® → î
 - Ã¯ → ï
 - Å" → œ
 - Ã‰ → É
 - Ã€ → À
 ---
 ## Roadmap / Améliorations futures possibles
 ### Court terme
 - [ ] Support optionnel de ftfy (Fix Text For You) pour les cas complexes
 - [ ] Option pour backup automatique avant renommage
 - [ ] Rapport détaillé en JSON pour intégration avec d'autres outils
 ### Moyen terme
 - [ ] Support d'autres types de problèmes d'encodage (UTF-8 → CP1252, etc.)
 - [ ] Interface de configuration avancée
 - [ ] Statistiques cumulatives dans les logs
 ### Long terme
 - [ ] Détection automatique du type de problème d'encodage
 - [ ] Support des langues autres que le français (allemand, espagnol, etc.)
 - [ ] Plugin web pour visualisation dans l'interface NZBGet
--- a/PROBLEME_FICHIER_NON_CORRIGE.md
+++ b/PROBLEME_FICHIER_NON_CORRIGE.md
@@ -0,0 +1,86 @@
 # ⚠️ CAS SPÉCIAL : Fichier non corrigé
 ## Problème rencontré
 Le fichier suivant n'a pas été corrigé :
 ```
 04-Tout s'arrange Ã  la fin.flac
 ```
 Alors que d'autres fichiers similaires ont été corrigés avec succès.
 ## Cause probable
 Il y a **deux variantes** du problème d'encodage pour la lettre "à" :
 ### Variante 1 : Ã + espace normal (U+0020)
 - Moins courant
 - Exemple : `Ã ` (Ã suivi d'un espace classique)
 ### Variante 2 : Ã + espace insécable (U+00A0) ⬅️ VOTRE CAS
 - Plus courant
 - Exemple : `Ã\xa0` (Ã suivi d'un espace insécable invisible)
 - **C'est ce qui se passe avec votre fichier !**
 ## Explication technique
 En UTF-8, la lettre "à" est encodée avec les octets `0xC3 0xA0`.
 Quand ces octets sont mal interprétés comme ISO-8859-1 :
 - `0xC3` → devient le caractère "Ã"
 - `0xA0` → devient un **espace insécable** (non-breaking space)
 L'espace insécable est invisible à l'œil nu, mais c'est un caractère différent d'un espace normal !
 ## Solution
 Le script a été **mis à jour** (version corrigée) pour détecter et corriger ce cas spécifique.
 ## Comment vérifier votre fichier
 Utilisez le script de diagnostic fourni :
 ```bash
 python3 diagnose_filename.py "04-Tout s'arrange Ã  la fin.flac"
 ```
 Ce script vous montrera :
 - Les octets exacts du nom de fichier
 - Les caractères suspects (comme l'espace insécable)
 - Le résultat de la correction
 ## Réexécuter la correction
 Avec la **version mise à jour** du script :
 ### Option 1 : Test manuel
 ```bash
 python3 test_fix_encoding.py /chemin/vers/vos/fichiers
 python3 test_fix_encoding.py /chemin/vers/vos/fichiers --fix
 ```
 ### Option 2 : Via NZBGet
 1. Remplacez l'ancien `FixEncoding.py` par la version mise à jour
 2. Dans NZBGet, allez dans **History**
 3. Sélectionnez le téléchargement concerné
 4. Cliquez sur **Post-Process Again**
 5. Sélectionnez **FixEncoding.py** et lancez
 ## Amélioration du script
 La nouvelle version utilise une **double vérification** :
 1. ✅ Recherche les patterns connus (dont `Ã\xa0`)
 2. ✅ Teste si la conversion `ISO-8859-1 → UTF-8` fonctionne
 3. ✅ Compare le résultat avec l'original
 Cette approche est plus robuste et détecte même les variantes rares du problème.
 ## Vérification après correction
 Après avoir réexécuté le script, votre fichier devrait devenir :
 ```
 04-Tout s'arrange à la fin.flac
 ```
 Si le problème persiste, utilisez le script de diagnostic pour obtenir plus d'informations sur la nature exacte du problème d'encodage.
--- a/README.md
+++ b/README.md
@@ -10,12 +10,15 @@ Le script détecte et corrige automatiquement :
 - `Ã©` → `é`
 - `Ã¨` → `è`
 - `Ãª` → `ê`
- `Ã ` → `à`
+- `Ã ` → `à` (avec espace normal)
 - `Ã\xa0` → `à` (avec espace insécable - cas le plus fréquent)
 - `Ã¢` → `â`
 - `Ã§` → `ç`
 - `Ã´` → `ô`
 - Et tous les autres caractères accentués français
 **Note importante :** Le caractère "à" peut être encodé de deux façons différentes selon les systèmes. Le script gère automatiquement les deux cas.
 **Exemple :**
 - `19-La grÃ¢ce.flac` → `19-La grâce.flac`
 - `06-La fiÃ¨vre dans le sang.flac` → `06-La fièvre dans le sang.flac`
@@ -152,6 +155,27 @@ Le script est compatible avec :
 - ✅ Docker (NZBGet en conteneur)
 - ✅ NAS Synology, QNAP, etc. (avec Python)
 ## Outils de diagnostic
 ### Script de diagnostic
 Le package inclut un script de diagnostic pour analyser les noms de fichiers problématiques :
 ```bash
 # Analyser un fichier spécifique
 python3 diagnose_filename.py "nom-du-fichier.ext"
 # Analyser tous les fichiers d'un dossier
 python3 diagnose_filename.py /chemin/vers/dossier
 ```
 Ce script affiche :
 - Les octets exacts du nom de fichier
 - Les caractères suspects (espaces insécables, etc.)
 - Les patterns d'encodage détectés
 - Le résultat de la correction
 **Utilisez-le en cas de problème pour comprendre exactement ce qui se passe !**
 ## Dépannage
 ### Le script ne s'exécute pas
@@ -174,6 +198,23 @@ Le script est compatible avec :
 2. Activez DryRun pour voir ce que le script détecte
 3. Consultez les logs dans NZBGet
 ### Un fichier spécifique n'est pas corrigé
 Si un fichier contenant "Ã " n'est pas corrigé, c'est probablement dû à un **espace insécable invisible**. 
 **Diagnostic :**
 ```bash
 python3 diagnose_filename.py "nom-du-fichier-problematique.ext"
 ```
 Ce script vous montrera exactement quels caractères posent problème.
 **Solution :**
 - Assurez-vous d'utiliser la dernière version du script (qui gère les espaces insécables)
 - Réexécutez le post-processing sur ce téléchargement
 Consultez `PROBLEME_FICHIER_NON_CORRIGE.md` pour plus de détails.
 ### Erreur "File exists"
 Le script ne renommera pas un fichier si le nom de destination existe déjà. Vous devrez renommer manuellement l'un des deux fichiers.
--- a/diagnose_filename.py
+++ b/diagnose_filename.py
@@ -0,0 +1,128 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 Script de diagnostic pour analyser un nom de fichier problématique.
 Usage:
    python3 diagnose_filename.py "04-Tout s'arrange Ã  la fin.flac"
 Ou pour analyser tous les fichiers d'un dossier :
    python3 diagnose_filename.py /chemin/vers/dossier
 """
 import os
 import sys
 def analyze_filename(filename):
    """Analyse en détail un nom de fichier."""
    print(f"\n{'='*70}")
    print(f"ANALYSE DU FICHIER")
    print(f"{'='*70}")
    print(f"\n📄 Nom affiché : {filename}")
    print(f"📊 Longueur : {len(filename)} caractères")
    print(f"\n🔍 Représentation Python :")
    print(f"   {repr(filename)}")
    # Analyse octet par octet
    print(f"\n🔢 Octets (hex) :")
    try:
        encoded = filename.encode('utf-8')
        hex_str = ' '.join(f'{b:02x}' for b in encoded)
        print(f"   {hex_str}")
    except:
        print(f"   ❌ Impossible d'encoder en UTF-8")
    # Recherche de caractères suspects
    print(f"\n🔎 Caractères suspects :")
    found_issues = False
    for i, char in enumerate(filename):
        code = ord(char)
        if code > 127 or code == 0xA0:  # Non-ASCII ou espace insécable
            print(f"   Position {i:2d}: '{char}' (U+{code:04X} / {code})")
            found_issues = True
    if not found_issues:
        print(f"   ✅ Aucun caractère suspect détecté")
    # Test de conversion
    print(f"\n🔄 Test de correction :")
    try:
        fixed = filename.encode('iso-8859-1').decode('utf-8')
        if fixed == filename:
            print(f"   ℹ️  La conversion ne change rien")
        else:
            print(f"   ✅ Conversion réussie !")
            print(f"   📄 Nom corrigé : {fixed}")
            print(f"   🔍 Représentation : {repr(fixed)}")
    except UnicodeDecodeError as e:
        print(f"   ❌ Erreur de décodage UTF-8 : {e}")
        print(f"   💡 Le fichier contient un mélange d'encodages")
    except UnicodeEncodeError as e:
        print(f"   ❌ Erreur d'encodage ISO-8859-1 : {e}")
        print(f"   💡 Le fichier contient des caractères non compatibles ISO-8859-1")
    # Détection des patterns connus
    patterns = {
        'Ã©': 'é', 'Ã¨': 'è', 'Ãª': 'ê', 'Ã«': 'ë',
        'Ã ': 'à', 'Ã\xa0': 'à (avec espace insécable)',
        'Ã¢': 'â', 'Ã¤': 'ä', 'Ã§': 'ç',
        'Ã´': 'ô', 'Ã¶': 'ö', 'Ã¹': 'ù', 'Ã»': 'û', 'Ã¼': 'ü',
        'Ã®': 'î', 'Ã¯': 'ï', 'Å"': 'œ'
    }
    print(f"\n📋 Patterns d'encodage détectés :")
    found_patterns = []
    for pattern, correct in patterns.items():
        if pattern in filename:
            found_patterns.append((pattern, correct))
    if found_patterns:
        for pattern, correct in found_patterns:
            print(f"   • '{pattern}' devrait être '{correct}'")
    else:
        print(f"   ℹ️  Aucun pattern connu détecté")
    print(f"\n{'='*70}\n")
 def main():
    if len(sys.argv) < 2:
        print("Usage:")
        print('  python3 diagnose_filename.py "nom-du-fichier.ext"')
        print("  python3 diagnose_filename.py /chemin/vers/dossier")
        sys.exit(1)
    target = sys.argv[1]
    if os.path.isdir(target):
        # Analyse tous les fichiers du dossier
        print(f"\n{'#'*70}")
        print(f"ANALYSE DU DOSSIER : {target}")
        print(f"{'#'*70}")
        files_with_issues = []
        for dirpath, dirnames, filenames in os.walk(target):
            for filename in filenames:
                # Cherche des patterns suspects
                if any(p in filename for p in ['Ã', 'Å', 'Ã']):
                    files_with_issues.append((dirpath, filename))
        if not files_with_issues:
            print(f"\n✅ Aucun fichier avec problème d'encodage détecté!")
        else:
            print(f"\n⚠️  {len(files_with_issues)} fichier(s) avec problème d'encodage détecté(s):\n")
            for dirpath, filename in files_with_issues:
                rel_path = os.path.relpath(dirpath, target)
                if rel_path == '.':
                    rel_path = '(racine)'
                print(f"\n📁 {rel_path}")
                analyze_filename(filename)
    else:
        # Analyse un seul nom de fichier
        analyze_filename(target)
 if __name__ == '__main__':
    main()