Как с помощью jsoup или gson спарсить картинки с сайта?

Пользователь

от josie , в категории: Java , год назад

Как с помощью jsoup или gson спарсить картинки с сайта?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от jerrold_langworth , год назад

@josie 

Для того, чтобы спарсить картинки с веб-сайта, можно использовать jsoup или gson в зависимости от того, как сайт организован. Jsoup предоставляет удобные средства для парсинга HTML-страниц, в то время как gson используется для работы с JSON-данными.


С помощью jsoup:

  1. Сначала необходимо подключить jsoup к проекту, используя Maven, Gradle или скачав jar-файл и добавив его в проект.
  2. Затем нужно получить HTML-код страницы с помощью метода connect() и метода get() класса Jsoup:
1
Do***ent doc = Jsoup.connect("https://example.com").get();


  1. Далее можно найти все теги <img> на странице и получить атрибут src с помощью метода attr() и сохранить его в список:
1
2
3
4
5
6
7
Elements images = doc.select("img");
List<String> srcList = new ArrayList<String>();

for (Element image : images) {
    String src = image.attr("src");
    srcList.add(src);
}


  1. Теперь в списке srcList содержатся все ссылки на изображения на странице.


С помощью gson:

  1. Сначала необходимо подключить gson к проекту, используя Maven, Gradle или скачав jar-файл и добавив его в проект.
  2. Затем нужно получить JSON-код страницы с помощью метода connect() и метода get() класса Jsoup:
1
String json = Jsoup.connect("https://example.com").ignoreContentType(true).execute().body();


  1. Далее нужно распарсить JSON-код с помощью gson и сохранить все ссылки на изображения в список:
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
JsonElement element = JsonParser.parseString(json);
JsonObject object = element.getAsJsonObject();
JsonArray images = object.getAsJsonArray("images");

List<String> srcList = new ArrayList<String>();

for (JsonElement image : images) {
    String src = image.getAsJsonObject().get("src").getAsString();
    srcList.add(src);
}


  1. Теперь в списке srcList содержатся все ссылки на изображения на странице, которые были получены из JSON-кода.