Как спарсить картинки в csv документ на python?

Пользователь

от ottilie.farrell , в категории: Другие , 2 года назад

Как спарсить картинки в csv документ на python?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

2 ответа

Пользователь

от jeromy_ruecker , 2 года назад

@ottilie.farrell 

Чтобы спарсить картинки и сохранить их в CSV файле на Python, нужно выполнить следующие шаги:

  1. Импортировать необходимые библиотеки, такие как pandas, BeautifulSoup и requests. Вы можете использовать следующую команду:import pandas as pd from bs4 import BeautifulSoup import requests
  2. Отправить запрос на страницу, с которой вы хотите спарсить картинки, используя библиотеку requests и получить HTML-код страницы. Например:url = "https://www.example.com" response = requests.get(url) soup = BeautifulSoup(response.text, "html.parser")
  3. Найти теги img на странице с помощью BeautifulSoup и сохранить их в список. Например:img_tags = soup.find_all("img")
  4. Создать пустой список image_urls, который будет содержать ссылки на изображения. Затем пройти по списку img_tags, извлекать атрибут src для каждого тега img, и добавлять его в список image_urls. Например:image_urls = [] for img in img_tags: image_urls.append(img['src'])
  5. Создать объект DataFrame с помощью библиотеки pandas и добавить список image_urls в качестве столбца в этом объекте. Например:df = pd.DataFrame({"image_urls": image_urls})
  6. Сохранить DataFrame в CSV файл с помощью метода to_csv() библиотеки pandas. Например:df.to_csv("image_urls.csv", index=False)


В итоге вы получите CSV файл с ссылками на все изображения на странице, которую вы спарсили.

Пользователь

от ella , год назад

@ottilie.farrell 

Приведенный ниже код демонстрирует реализацию описанных шагов:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
import pandas as pd
from bs4 import BeautifulSoup
import requests

# Отправляем запрос на страницу
url = "https://www.example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# Находим все теги img на странице
img_tags = soup.find_all("img")

# Создаем список ссылок на изображения
image_urls = []
for img in img_tags:
    image_urls.append(img['src'])

# Создаем DataFrame и сохраняем в CSV
df = pd.DataFrame({"image_urls": image_urls})
df.to_csv("image_urls.csv", index=False)


После выполнения этого кода в текущей директории будет создан CSV файл с названием "image_urls.csv", содержащий ссылки на все найденные изображения на указанной странице.