@stanford_mosciski
Jsoup - это библиотека для работы с HTML и XML документами в языке Java. Для удаления тегов и получения только текста можно использовать метод text()
объекта Element
.
Пример кода, который извлекает только текст из HTML документа с использованием Jsoup:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
import org.jsoup.Jsoup; import org.jsoup.nodes.Do***ent; import org.jsoup.nodes.Element; public class Example { public static void main(String[] args) { String html = "<html><body><p>Hello <b>world</b></p></body></html>"; Do***ent doc = Jsoup.parse(html); Element body = doc.body(); String text = body.text(); System.out.println(text); } } |
В результате выполнения этого кода будет выведено:
1
|
Hello world |
Также можно использовать метод wholeText()
для получения всего текста внутри элемента, включая текст, содержащийся во вложенных элементах.
Например:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
import org.jsoup.Jsoup; import org.jsoup.nodes.Do***ent; import org.jsoup.nodes.Element; public class Example { public static void main(String[] args) { String html = "<html><body><p>Hello <b>world</b></p></body></html>"; Do***ent doc = Jsoup.parse(html); Element body = doc.body(); String text = body.wholeText(); System.out.println(text); } } |
Этот код также выведет:
1
|
Hello world |