Как парсить html в java?

Пользователь

от willis.streich , в категории: HTML/CSS , 5 месяцев назад

Как парсить html в java?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от montana_hand , 5 месяцев назад

@willis.streich 

Для парсинга HTML в Java вы можете использовать библиотеки, такие как Jsoup или HtmlUnit.

  1. Jsoup: Включите библиотеку Jsoup в свой проект. Вы можете скачать JAR-файл и добавить его в свой проект вручную или использовать систему управления зависимостями, такую как Maven или Gradle. Импортируйте необходимые классы в вашем коде: import org.jsoup.Jsoup; и import org.jsoup.nodes.Document; Используйте метод Jsoup.connect(url) для получения объекта типа Document, представляющего HTML-документ. Например: Document doc = Jsoup.connect("http://example.com").get(); Вы можете использовать методы класса Document для извлечения данных из HTML-dокумента, такие как getElementById(), getElementsByClass(), getElementsByTag(), и т.д. Например, чтобы получить текст заголовка страницы, вы можете использовать следующий код: String title = doc.title();
  2. HtmlUnit: Включите библиотеку HtmlUnit в свой проект. Вы можете скачать JAR-файл и добавить его в свой проект вручную или использовать систему управления зависимостями, такую как Maven или Gradle. Импортируйте необходимые классы в вашем коде: import com.gargoylesoftware.htmlunit.WebClient; и import com.gargoylesoftware.htmlunit.html.HtmlPage; Создайте объект типа WebClient и настройте его настройки по необходимости. Например: WebClient webClient = new WebClient(); webClient.getOptions().setCssEnabled(false); Используйте метод webClient.getPage(url) для получения объекта типа HtmlPage, представляющего HTML-страницу. Например: HtmlPage page = webClient.getPage("http://example.com"); Вы можете использовать методы класса HtmlPage для извлечения данных из HTML-страницы, такие как getHtmlElementById(), getHtmlElementsByTagName(), getHtmlElementsByAttribute(), и т.д. Например, чтобы получить текст заголовка страницы, вы можете использовать следующий код: String title = page.getTitleText();


Обе библиотеки предоставляют дополнительные возможности для работы с HTML-документами, такие как выполнение JavaScript на страницах, заполнение форм, щелчки по элементам и т.д. В зависимости от ваших конкретных потребностей, вы можете выбрать подходящую библиотеку.