Module d’Évaluation
Le module evaluate fournit un ensemble d’outils pour mesurer la performance du pipeline d’extraction d’horaires de SmartWatch par rapport à un jeu de données de référence (vérité terrain).
Principe de fonctionnement
L’évaluation se base sur un fichier CSV contenant des URLs et les horaires de référence au format OSM. Pour chaque ligne du fichier, le module va :
Exécuter le pipeline : Simuler le pipeline principal (récupération URL, conversion Markdown, nettoyage, filtrage, extraction LLM) pour obtenir une prédiction d’horaires.
Comparer : Comparer la prédiction avec la vérité terrain en utilisant le même comparateur que le projet.
Compter les erreurs : Analyser les différences pour obtenir un décompte fin des erreurs.
Agréger les résultats : Calculer des métriques de performance sur l’ensemble du jeu de données et afficher un rapport détaillé.
Comment l’utiliser ?
Le module est conçu pour être lancé via le script
evaluate_pipeline.pysitué à la racine du projet.Préparez votre fichier d’évaluation
Créez un fichier CSV (par exemple,
evaluation_data.csv) avec au minimum les colonnesurletground_truth_osm.Lancez le script d’évaluation
Exécutez la commande suivante depuis la racine du projet :
Analysez le rapport
Le script affichera un rapport complet dans la console, incluant le taux de concordance, le nombre moyen de différences, et le détail de chaque erreur.