Module d'Évaluation =================== Le module ``evaluate`` fournit un ensemble d'outils pour mesurer la performance du pipeline d'extraction d'horaires de SmartWatch par rapport à un jeu de données de référence (vérité terrain). Principe de fonctionnement -------------------------- L'évaluation se base sur un fichier CSV contenant des URLs et les horaires de référence au format OSM. Pour chaque ligne du fichier, le module va : 1. **Exécuter le pipeline** : Simuler le pipeline principal (récupération URL, conversion Markdown, nettoyage, filtrage, extraction LLM) pour obtenir une prédiction d'horaires. 2. **Comparer** : Comparer la prédiction avec la vérité terrain en utilisant le même comparateur que le projet. 3. **Compter les erreurs** : Analyser les différences pour obtenir un décompte fin des erreurs. 4. **Agréger les résultats** : Calculer des métriques de performance sur l'ensemble du jeu de données et afficher un rapport détaillé. Comment l'utiliser ? -------------------- Le module est conçu pour être lancé via le script ``evaluate_pipeline.py`` situé à la racine du projet. 1. **Préparez votre fichier d'évaluation** Créez un fichier CSV (par exemple, ``evaluation_data.csv``) avec au minimum les colonnes ``url`` et ``ground_truth_osm``. .. code-block:: csv url;ground_truth_osm "https://www.exemple.com/lieu1";"Mo-Fr 09:00-17:00" "https://www.exemple.com/lieu2";"Tu-Sa 10:00-18:00, Su 10:00-13:00" 2. **Lancez le script d'évaluation** Exécutez la commande suivante depuis la racine du projet : .. code-block:: bash python evaluate_pipeline.py chemin/vers/votre/evaluation_data.csv 3. **Analysez le rapport** Le script affichera un rapport complet dans la console, incluant le taux de concordance, le nombre moyen de différences, et le détail de chaque erreur. Composition du Module --------------------- .. toctree:: :maxdepth: 1 evaluator scorer metrics