Как в jsoup отформатировать все теги и оставить только текст?

Пользователь

от stanford_mosciski , в категории: Java , 8 месяцев назад

Как в jsoup отформатировать все теги и оставить только текст?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от eudora , 7 месяцев назад

@stanford_mosciski 

Jsoup - это библиотека для работы с HTML и XML документами в языке Java. Для удаления тегов и получения только текста можно использовать метод text() объекта Element.


Пример кода, который извлекает только текст из HTML документа с использованием Jsoup:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
import org.jsoup.Jsoup;
import org.jsoup.nodes.Do***ent;
import org.jsoup.nodes.Element;

public class Example {
    public static void main(String[] args) {
        String html = "<html><body><p>Hello <b>world</b></p></body></html>";
        Do***ent doc = Jsoup.parse(html);
        Element body = doc.body();
        String text = body.text();
        System.out.println(text);
    }
}


В результате выполнения этого кода будет выведено:

1
Hello world


Также можно использовать метод wholeText() для получения всего текста внутри элемента, включая текст, содержащийся во вложенных элементах.


Например:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
import org.jsoup.Jsoup;
import org.jsoup.nodes.Do***ent;
import org.jsoup.nodes.Element;

public class Example {
    public static void main(String[] args) {
        String html = "<html><body><p>Hello <b>world</b></p></body></html>";
        Do***ent doc = Jsoup.parse(html);
        Element body = doc.body();
        String text = body.wholeText();
        System.out.println(text);
    }
}


Этот код также выведет:

1
Hello world