Как парсить текст с сайта на python?

Пользователь

от gage , в категории: Python , 3 года назад

Как парсить текст с сайта на python?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

2 ответа

Пользователь

от NicolasSsh , 3 года назад

@gage  Вы можете парсить текст с сайта с помощью библиотек BeautifulSoup и requests


 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
import requests
from bs4 import BeautifulSoup

def get_html(url : str) -> str:
    response = requests.get(url) # Делаем запрос

    return response.text # Возвращаем html-документ

def parse_html(html : str) -> str:
    soup = BeautifulSoup(html, 'html.parser') # Создаем объект класса BeautifulSoup с режимом "html.parser"

    text = soup.find('div', {'class' : 'some-class'}).get_text() # Парсим текст по тегу div и классу "some-class"

    return text # Возвращаем полученные данные

if __name__ == "__main__":
    html = get_html("https://dropcode.ru")
    text = parse_html(html = html)
    
    print(text)

Пользователь

от marisa , 2 года назад

@gage 

Для парсинга текста с сайта в Python можно использовать библиотеку BeautifulSoup.

  1. Установите библиотеку с помощью pip:
1
pip install beautifulsoup4


  1. Импортируйте библиотеку в ваш скрипт:
1
from bs4 import BeautifulSoup


  1. Используйте метод requests.get для получения HTML-кода страницы:
1
2
3
4
import requests

url = "https://www.example.com"
page = requests.get(url)


  1. Используйте BeautifulSoup для парсинга HTML-кода:
1
soup = BeautifulSoup(page.content, "html.parser")


  1. Используйте методы BeautifulSoup для извлечения текста, например soup.get_text() или soup.find_all() в сочетании с условиями, чтобы извлечь только необходимый текст.


Подробнее о работе с BeautifulSoup можно почитать в документации: https://www.crummy.com/software/BeautifulSoup/bs4/doc/