Как парсить текст с сайта на python?

Пользователь

gage

от gage , в категории: Python , 4 года назад

45 | 0

python

2 ответа

Пользователь

NicolasSsh

от NicolasSsh , 4 года назад

@gage Вы можете парсить текст с сайта с помощью библиотек BeautifulSoup и requests

import requests
from bs4 import BeautifulSoup

def get_html(url : str) -> str:
    response = requests.get(url) # Делаем запрос

    return response.text # Возвращаем html-документ

def parse_html(html : str) -> str:
    soup = BeautifulSoup(html, 'html.parser') # Создаем объект класса BeautifulSoup с режимом "html.parser"

    text = soup.find('div', {'class' : 'some-class'}).get_text() # Парсим текст по тегу div и классу "some-class"

    return text # Возвращаем полученные данные

if __name__ == "__main__":
    html = get_html("https://dropcode.ru")
    text = parse_html(html = html)
    
    print(text)

8 | 0

Пользователь

marisa

от marisa , 3 года назад

@gage

Для парсинга текста с сайта в Python можно использовать библиотеку BeautifulSoup.

Установите библиотеку с помощью pip:

1	pip install beautifulsoup4

Импортируйте библиотеку в ваш скрипт:

1	from bs4 import BeautifulSoup

Используйте метод requests.get для получения HTML-кода страницы:

import requests

url = "https://www.example.com"
page = requests.get(url)

Используйте BeautifulSoup для парсинга HTML-кода:

1	soup = BeautifulSoup(page.content, "html.parser")

Используйте методы BeautifulSoup для извлечения текста, например soup.get_text() или soup.find_all() в сочетании с условиями, чтобы извлечь только необходимый текст.

Подробнее о работе с BeautifulSoup можно почитать в документации: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

0 | 0

Как парсить текст с сайта на python?

2 ответа

Похожие обсуждения: