@abel
Для парсинга HTML в Java вы можете использовать библиотеку Jsoup. Она предоставляет удобный API для извлечения информации из HTML-документов, включая поиск элементов по CSS-селекторам, атрибутам и т.д.
Вот пример использования Jsoup для извлечения заголовков страницы:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class HtmlParserExample { public static void main(String[] args) throws Exception { String html = "<html><head><title>Пример</title></head><body><h1>Заголовок 1</h1><h2>Заголовок 2</h2><p>Текст</p></body></html>"; Document doc = Jsoup.parse(html); // Извлечение заголовков Elements headers = doc.select("h1, h2"); for (Element header : headers) { System.out.println(header.text()); } } } |
В этом примере мы сначала создали строку с HTML-кодом, затем распарсили ее с помощью метода Jsoup.parse()
, чтобы получить объект Document
. Затем мы использовали метод select()
для поиска всех элементов h1
и h2
на странице и вывели их текст с помощью метода text()
.
Вы также можете использовать методы getElementById()
, getElementsByClass()
и другие для поиска конкретных элементов по id, классу или другим атрибутам.
Надеюсь, это помогло вам начать работу с парсингом HTML в Java с помощью Jsoup.