Récupérateur d’URL
Le module URLRetriever
gère la récupération de contenu à partir d’URLs web.
Usage
Ce module est utilisé par URLProcessor pour récupérer le contenu des pages web à analyser.
Fonctionnalités
Récupère le contenu HTML des pages web à l’aide de Playwright.
Met en œuvre des stratégies progressives pour gérer les erreurs de certificat SSL.
Gère les erreurs réseau courantes comme les redirections et les temps morts.
Convertit automatiquement le contenu HTML récupéré en Markdown à l’aide du module HtmlToMarkdown.
Modules
- src.smart_watch.core.URLRetriever.retrieve_url(row: dict, sortie: str = 'html', encoding_errors: str = 'ignore', config=None, index: int = 0, total: int = 0) dict [source]
Récupère le contenu d’une URL et le retourne sous forme de dictionnaire.
- Paramètres:
row (dict) – dictionnaire contenant les informations de l’URL et d’autres métadonnées.
sortie (str) – format de sortie souhaité, par défaut « html ».
encoding_errors (str) – stratégie de gestion des erreurs d’encodage, par défaut « ignore ».
config (dict, optional) – configuration supplémentaire, non utilisée dans cette fonction.
index (int) – index de l’URL dans une liste, utilisé pour le logging.
total (int) – nombre total d’URLs à traiter, utilisé pour le logging.
- Renvoie:
- dictionnaire contenant :
toutes les clés d’entrée du paramètre row
’statut” (str) : état de la récupération (“ok”, “warning”, “critical”)
”message” (str) : message d’erreur ou d’information
’code_http” (int) : code HTTP de la réponse (0 si non disponible)
”html” (str) : contenu HTML récupéré (si succès)
”markdown” (str) : contenu converti en markdown (si sortie == « markdown » et succès)
- Type renvoyé: