Récupérateur d’URL

Le module URLRetriever gère la récupération de contenu à partir d’URLs web.

Usage

Ce module est utilisé par URLProcessor pour récupérer le contenu des pages web à analyser.

Fonctionnalités

  • Récupère le contenu HTML des pages web à l’aide de Playwright.

  • Met en œuvre des stratégies progressives pour gérer les erreurs de certificat SSL.

  • Gère les erreurs réseau courantes comme les redirections et les temps morts.

  • Convertit automatiquement le contenu HTML récupéré en Markdown à l’aide du module HtmlToMarkdown.

Modules

src.smart_watch.core.URLRetriever.retrieve_url(row: Dict[str, Any], sortie: str = 'html', encoding_errors: str = 'ignore', config: Dict[str, Any] | None = None, index: int = 0, total: int = 0) Dict[str, Any][source]

Récupère le contenu d’une URL avec des stratégies robustes et des tentatives multiples.

Paramètres:
  • row (Dict[str, Any]) – Dictionnaire contenant les informations de l’URL.

  • sortie (str) – Format de sortie souhaité (« html » ou « markdown »).

  • encoding_errors (str) – Gestion des erreurs d’encodage.

  • config (Optional[Dict[str, Any]]) – Configuration supplémentaire.

  • index (int) – Index de l’URL pour le logging.

  • total (int) – Nombre total d’URLs pour le logging.

Renvoie:

Dictionnaire enrichi avec le statut et le contenu de la page.

Type renvoyé:

Dict[str, Any]