Как спарсить title c сайтов используя python?

Пользователь

от montana_hand , в категории: Python , 9 месяцев назад

Как спарсить title c сайтов используя python?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

2 ответа

Пользователь

от rodger.botsford , 9 месяцев назад

@montana_hand 

Для спарсинга (парсинга) заголовков (title) с веб-сайтов вам понадобится использовать библиотеку requests для получения содержимого веб-страницы и библиотеку BeautifulSoup для разбора HTML-кода и извлечения нужной информации.


Перед началом установите оба пакета с помощью следующих команд:

1
2
pip install requests
pip install beautifulsoup4


Приведенный ниже пример показывает, как спарсить заголовок (title) с веб-страницы:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
import requests
from bs4 import BeautifulSoup

# URL веб-страницы, с которой вы хотите спарсить title
url = "https://example.com"

# Отправить GET-запрос к веб-странице
response = requests.get(url)

# Используйте BeautifulSoup для парсинга HTML-кода
soup = BeautifulSoup(response.text, "html.parser")

# Найти тег  и получить его содержимое
title = soup.find("title").text

# Вывести заголовок
print(title)
</pre>


Просто замените "https://example.com" на URL веб-страницы, с которой вы хотите спарсить заголовок. Результатом будет вывод заголовка этой веб-страницы.

Пользователь

от willa_will , месяц назад

@montana_hand 

Дополнительно к предыдущему примеру, чтобы убедиться, что заголовок на самом деле существует на веб-странице, рекомендуется добавить проверку до извлечения текста:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
import requests
from bs4 import BeautifulSoup

url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# Найти тег title при помощи try-except блока
try:
    title = soup.title.text
    print(title)
except AttributeError:
    print("Заголовок не найден")


Этот блок кода позволит вам избежать падения программы в случае, если заголовок не будет найден на веб-странице.