HTML to Markdown

Le module HtmlToMarkdown convertit du contenu HTML au format Markdown, en ne renvoyant que le texte.

Fonctionnalités

  • Conversion avec BeautifulSoup et moteur lxml

  • Extraction du texte brut (pas d’images ou liens)

Usage

La fonction convert_html_to_markdown est utilisée dans :

  • la fonction retrieve_url du module URLRetriever, pour convertir en Markdown le contenu HTML des pages web indiquées dans le csv CSV_URL_HORAIRES.

Modules

src.smart_watch.utils.HtmlToMarkdown.convert_html_to_markdown(html: str, identifiant: str | None = None) str[source]

Convertit une chaîne HTML en Markdown.

Utilise BeautifulSoup pour un parsing robuste avant la conversion, ce qui permet de nettoyer le HTML et de gérer les balises mal formées.

Paramètres:
  • html (str) – Le contenu HTML à convertir.

  • identifiant (str, optional) – L’identifiant du lieu pour le logging. Defaults to None.

Renvoie:

Le contenu converti en Markdown.

Type renvoyé:

str