Beautiful Soup : Exemple d'utilisation, Liens externes Wikipédia, l'encyclopédie libre

Beautiful Soup

Informations
Développé par	Leonard Richardson
Dernière version	4.11.2 (31 janvier 2023)
Dépôt	code.launchpad.net/beautifulsoup
Écrit en	Python
Environnement	Python
Type	Bibliothèque d'analyse syntaxique
Licence	Python Software Foundation License
Documentation	www.crummy.com/software/BeautifulSoup/bs4/doc
Site web	http://www.crummy.com/software/BeautifulSoup/

modifier - modifier le code - voir Wikidata (aide)

Beautiful Soup (littéralement « Belle Soupe ») est une bibliothèque Python d'analyse syntaxique de documents HTML et XML créée par Leonard Richardson.

Elle produit un arbre syntaxique qui peut être utilisé pour chercher des éléments ou les modifier. Lorsque le document HTML ou XML est mal formé (par exemple s'il manque des balises fermantes), Beautiful Soup propose une approche à base d'heuristiques afin de reconstituer l'arbre syntaxique sans générer d'erreurs. Cette approche est aussi utilisée par les navigateurs web modernes.

Elle est disponible pour Python 2.7 et Python 3.

Exemple d'utilisation

# Python 2
# Extraction des liens d'une page web
from bs4 import BeautifulSoup
import urllib.request

webpage = urllib.request.urlopen('http://fr.wikipedia.org/wiki/Main_Page')
soup = BeautifulSoup(webpage, 'html.parser')
for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))

# Python 3
# Extraction des liens d'une page web
from bs4 import BeautifulSoup
import requests

requete = requests.get('https://fr.wikipedia.org/wiki/Main_Page')
page = BeautifulSoup(requete.text, 'html.parser')

for lien in page.find_all('a'):
    print(lien['href'])

Liens externes

(en) Page officielle de Beautiful Soup
Naviguer dans un arbre avec Beautiful Soup
BeautifulSoup ou le doux potage de la moisson - Documentation abrégée pour applications en journalisme de données