Как парсить динамические сайты на python?

Пользователь

gussie.jones

от gussie.jones, в категории: Python , 6 месяцев назад

Как парсить динамические сайты на python?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от NicolasSsh , 6 месяцев назад

@gussie.jones  Для парсинга динамических сайтов можно прибегнуть к двум вариантам : Парсинг по запросам (Они не всегда есть) и парсинг с помощью эмуляции браузера (зачастую используют библиотеку selenium с браузерным ядром)


 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
from selenium import webdriver
from config import user_agent
from time import sleep

options = webdriver.ChromeOptions() # Устанавливаем настройки для эмулируемого браузера
options.add_argument("user-agent={user_agent}")
options.add_argument("--headless") # Режим, при котором окно браузера будет работать в фоновом режиме

driver = webdriver.Chrome(executable_path="chromedriver.exe", options=options) # Создаем экземпляр класса Chrome с инициализируемым путём и настройками

driver.get("https://dropcode.ru") # Открываем страницу в драйвере

sleep(2) # Ждём, когда прогрузиться страница

html = driver.page_source # Получаем html-страницу со всеми прогруженными данными
# Теперь данную html-страницу можно распарсить, используя обычный BeautifulSoup

driver.close()
driver.quit() # Закрываем драйвер