Récupérateur d’URL

Le module URLRetriever gère la récupération de contenu à partir d’URLs web.

Usage

Ce module est utilisé par URLProcessor pour récupérer le contenu des pages web à analyser.

Fonctionnalités

  • Récupère le contenu HTML des pages web à l’aide de Playwright.

  • Met en œuvre des stratégies progressives pour gérer les erreurs de certificat SSL.

  • Gère les erreurs réseau courantes comme les redirections et les temps morts.

  • Convertit automatiquement le contenu HTML récupéré en Markdown à l’aide du module HtmlToMarkdown.

Modules

src.smart_watch.core.URLRetriever.retrieve_url(row: dict, sortie: str = 'html', encoding_errors: str = 'ignore', config=None, index: int = 0, total: int = 0) dict[source]

Récupère le contenu d’une URL et le retourne sous forme de dictionnaire.

Paramètres:
  • row (dict) – dictionnaire contenant les informations de l’URL et d’autres métadonnées.

  • sortie (str) – format de sortie souhaité, par défaut « html ».

  • encoding_errors (str) – stratégie de gestion des erreurs d’encodage, par défaut « ignore ».

  • config (dict, optional) – configuration supplémentaire, non utilisée dans cette fonction.

  • index (int) – index de l’URL dans une liste, utilisé pour le logging.

  • total (int) – nombre total d’URLs à traiter, utilisé pour le logging.

Renvoie:

dictionnaire contenant :
  • toutes les clés d’entrée du paramètre row

  • ’statut” (str) : état de la récupération (“ok”, “warning”, “critical”)

  • ”message” (str) : message d’erreur ou d’information

  • ’code_http” (int) : code HTTP de la réponse (0 si non disponible)

  • ”html” (str) : contenu HTML récupéré (si succès)

  • ”markdown” (str) : contenu converti en markdown (si sortie == « markdown » et succès)

Type renvoyé:

dict