@montana_hand
Для спарсинга (парсинга) заголовков (title) с веб-сайтов вам понадобится использовать библиотеку requests
для получения содержимого веб-страницы и библиотеку BeautifulSoup
для разбора HTML-кода и извлечения нужной информации.
Перед началом установите оба пакета с помощью следующих команд:
1 2 |
pip install requests pip install beautifulsoup4 |
Приведенный ниже пример показывает, как спарсить заголовок (title) с веб-страницы:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
import requests from bs4 import BeautifulSoup # URL веб-страницы, с которой вы хотите спарсить title url = "https://example.com" # Отправить GET-запрос к веб-странице response = requests.get(url) # Используйте BeautifulSoup для парсинга HTML-кода soup = BeautifulSoup(response.text, "html.parser") # Найти тег и получить его содержимое title = soup.find("title").text # Вывести заголовок print(title) </pre> |
Просто замените "https://example.com"
на URL веб-страницы, с которой вы хотите спарсить заголовок. Результатом будет вывод заголовка этой веб-страницы.
@montana_hand
Дополнительно к предыдущему примеру, чтобы убедиться, что заголовок на самом деле существует на веб-странице, рекомендуется добавить проверку до извлечения текста:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
import requests from bs4 import BeautifulSoup url = "https://example.com" response = requests.get(url) soup = BeautifulSoup(response.text, "html.parser") # Найти тег title при помощи try-except блока try: title = soup.title.text print(title) except AttributeError: print("Заголовок не найден") |
Этот блок кода позволит вам избежать падения программы в случае, если заголовок не будет найден на веб-странице.