Récupérateur d’URL
Le module URLRetriever
gère la récupération de contenu à partir d’URLs web.
Usage
Ce module est utilisé par URLProcessor pour récupérer le contenu des pages web à analyser.
Fonctionnalités
Récupère le contenu HTML des pages web à l’aide de Playwright.
Met en œuvre des stratégies progressives pour gérer les erreurs de certificat SSL.
Gère les erreurs réseau courantes comme les redirections et les temps morts.
Convertit automatiquement le contenu HTML récupéré en Markdown à l’aide du module HtmlToMarkdown.
Modules
- src.smart_watch.core.URLRetriever.retrieve_url(row: Dict[str, Any], sortie: str = 'html', encoding_errors: str = 'ignore', config: Dict[str, Any] | None = None, index: int = 0, total: int = 0) Dict[str, Any] [source]
Récupère le contenu d’une URL avec des stratégies robustes et des tentatives multiples.
- Paramètres:
row (Dict[str, Any]) – Dictionnaire contenant les informations de l’URL.
sortie (str) – Format de sortie souhaité (« html » ou « markdown »).
encoding_errors (str) – Gestion des erreurs d’encodage.
config (Optional[Dict[str, Any]]) – Configuration supplémentaire.
index (int) – Index de l’URL pour le logging.
total (int) – Nombre total d’URLs pour le logging.
- Renvoie:
Dictionnaire enrichi avec le statut et le contenu de la page.
- Type renvoyé:
Dict[str, Any]