Как спарсить ссылки с помощью jsoup с сайта?

Пользователь

от bernardo_nolan , в категории: Java , 2 года назад

Как спарсить ссылки с помощью jsoup с сайта?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

2 ответа

Пользователь

от nicolette.stoltenberg , 2 года назад

@bernardo_nolan 

Для того чтобы спарсить ссылки с помощью библиотеки Jsoup, можно использовать метод select() для выборки элементов, удовлетворяющих определенному CSS-селектору.


Например, чтобы выбрать все ссылки на странице, можно использовать следующий код:

1
2
3
4
5
Document doc = Jsoup.connect("http://example.com").get();
Elements links = doc.select("a[href]");
for (Element link : links) {
    System.out.println(link.attr("href"));
}


В этом примере мы сначала получаем объект Document для страницы, используя метод Jsoup.connect().get(). Затем мы выбираем все элементы <a> с атрибутом href с помощью метода select(). Наконец, мы перебираем все найденные элементы и выводим их значение атрибута href с помощью метода attr().


Также можно использовать другие CSS-селекторы для более точной выборки ссылок. Например, чтобы выбрать только ссылки на странице, которые ведут на другие страницы в домене example.com, можно использовать следующий код:

1
2
3
4
5
Document doc = Jsoup.connect("http://example.com").get();
Elements links = doc.select("a[href^=http://example.com]");
for (Element link : links) {
    System.out.println(link.attr("href"));
}


В этом примере мы используем селектор a[href^=http://example.com], который выбирает все ссылки (<a>), у которых атрибут href начинается с http://example.com.

Пользователь

от kameron , год назад

@bernardo_nolan 

Таким образом, можно спарсить ссылки с помощью Jsoup, выбрав нужные элементы с помощью метода select() и получив значение атрибута href с помощью метода attr().