Как парсить страницы сайтов Python?

Пользователь

от bart , в категории: Python , 8 месяцев назад

Как парсить страницы сайтов Python?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от jorge , 3 месяца назад

@bart 

Для парсинга страниц сайтов в Python можно использовать библиотеку Beautiful Soup. Эта библиотека позволяет легко извлекать данные из HTML- и XML-документов. Для работы с ней необходимо установить ее с помощью pip:

1
pip install beautifulsoup4


После установки библиотеки можно использовать ее для парсинга страницы сайта следующим образом:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
from bs4 import BeautifulSoup
import requests

# Отправляем запрос на сайт и получаем HTML-страницу
response = requests.get("http://example.com")
html = response.text

# Создаем объект BeautifulSoup для парсинга страницы
soup = BeautifulSoup(html, "html.parser")

# Извлекаем нужные нам данные
for link in soup.find_all("a"):
    print(link.text, link["href"])


В этом примере мы отправляем запрос на сайт example.com, получаем HTML-код страницы и парсим его с помощью Beautiful Soup. Затем мы извлекаем текст и ссылку всех ссылок <a> на странице.


Библиотека Beautiful Soup очень удобна и мощна, и ей