Как получить информацию c html элемента используя java?

Пользователь

от dayna , в категории: Java , 5 месяцев назад

Как получить информацию c html элемента используя java?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от loyal , 5 месяцев назад

@dayna 

Для получения информации с HTML элемента в Java, вы можете использовать различные библиотеки парсинга HTML, такие как JSoup или HtmlUnit.

  1. JSoup: JSoup - это библиотека парсинга HTML, которая облегчает работу с HTML-документами в Java.


Пример использования:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class HtmlParser {
    public static void main(String[] args) {
        // HTML код
        String html = "<html><head><title>Пример</title></head>"
                + "<body><h1>Заголовок</h1><p>Текст</p></body></html>";

        // Создаем объект Document из HTML строки
        Document document = Jsoup.parse(html);

        // Получаем элемент с тегом h1
        Element h1Element = document.getElementsByTag("h1").first();

        // Получаем текст из элемента
        String text = h1Element.text();

        System.out.println(text); // Выводит "Заголовок"
    }
}


  1. HtmlUnit: HtmlUnit - это библиотека, которая позволяет выполнить и обработать HTML-страницу в фоновом режиме. Она также предоставляет API для доступа к элементам страницы.


Пример использования:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlElement;

public class HtmlParser {
    public static void main(String[] args) throws Exception {
        try (final WebClient webClient = new WebClient()) {
            // Получаем объект страницы
            final HtmlPage page = webClient.getPage("http://example.com");

            // Находим элемент с id "myElement"
            final HtmlElement element = page.getElementById("myElement");

            // Получаем текст из элемента
            String text = element.getTextContent();

            System.out.println(text); // Выводит текст из элемента
        }
    }
}


Оба примера позволяют получить доступ к HTML-элементам, используя различные селекторы (тег, класс, id и т.д.) и получить текст или другую информацию с выбранного элемента.