Как парсить html в java?

Пользователь

от miguel_ritchie , в категории: Java , 7 месяцев назад

Как парсить html в java?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

2 ответа

Пользователь

от hanna_jacobson , 7 месяцев назад

@miguel_ritchie 

Есть несколько способов парсинга HTML в Java, вот некоторые из них:



Обе эти библиотеки имеют множество возможностей для более сложного и гибкого парсинга HTML, так что вы можете изучить документацию по ним, чтобы узнать больше о доступных функциях и методах.

Пользователь

от greyson , 2 месяца назад

@miguel_ritchie 

  1. Использование библиотеки Jsoup:


Jsoup - это очень популярная библиотека для парсинга HTML в Java. Она предоставляет удобный API для работы с документами HTML. Вот пример кода, демонстрирующий, как парсить HTML с помощью Jsoup:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlParser {
    public static void main(String[] args) {
        String html = "<html><head><title>Example</title></head><body><p>Hello, World!</p></body></html>";

        Document doc = Jsoup.parse(html);
        Element body = doc.body();
        Element p = body.selectFirst("p");
        System.out.println(p.text());
    }
}


  1. Использование библиотеки HtmlUnit:


HtmlUnit - это библиотека для автоматизации тестирования веб-приложений, которая также может использоваться для парсинга HTML. Вот пример кода, показывающий, как парсить HTML с помощью HtmlUnit:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class HtmlParser {
    public static void main(String[] args) {
        try (final WebClient webClient = new WebClient()) {
            final HtmlPage page = webClient.getPage("http://example.com");
            System.out.println(page.asText());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}


Обе эти библиотеки имеют множество возможностей для более сложного и гибкого парсинга HTML, так что вы можете изучить документацию по ним, чтобы узнать больше о доступных функциях и методах.