@bart
Для парсинга страниц сайтов в Python можно использовать библиотеку Beautiful Soup
. Эта библиотека позволяет легко извлекать данные из HTML- и XML-документов. Для работы с ней необходимо установить ее с помощью pip
:
1
|
pip install beautifulsoup4 |
После установки библиотеки можно использовать ее для парсинга страницы сайта следующим образом:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
from bs4 import BeautifulSoup import requests # Отправляем запрос на сайт и получаем HTML-страницу response = requests.get("http://example.com") html = response.text # Создаем объект BeautifulSoup для парсинга страницы soup = BeautifulSoup(html, "html.parser") # Извлекаем нужные нам данные for link in soup.find_all("a"): print(link.text, link["href"]) |
В этом примере мы отправляем запрос на сайт example.com
, получаем HTML-код страницы и парсим его с помощью Beautiful Soup. Затем мы извлекаем текст и ссылку всех ссылок <a>
на странице.
Библиотека Beautiful Soup очень удобна и мощна, и ей