Как читать pdf на Java?

Пользователь

от jerad.kuphal , в категории: Java , 2 года назад

Как читать pdf на Java?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

2 ответа

Пользователь

от eryn.rodriguez , год назад

@jerad.kuphal 

Для чтения PDF-файлов на Java можно использовать библиотеку Apache PDFBox. Она позволяет не только читать, но и редактировать, создавать и конвертировать PDF-файлы.


Чтобы начать работу с PDFBox, нужно установить библиотеку с помощью управления зависимостями вашего проекта (например, Maven). Затем в коде можно импортировать нужные классы из пакета org.apache.pdfbox.


Чтобы открыть PDF-файл, нужно создать экземпляр класса PDDocument и вызвать метод load(), передав в качестве аргумента путь к файлу:

1
2
3
4
5
import org.apache.pdfbox.pdmodel.PDDocument;

// ...

PDDocument document = PDDocument.load(new File("path/to/file.pdf"));


Далее можно использовать методы класса PDDocument для чтения содержимого файла. Например, чтобы получить список страниц файла, можно вызвать метод getPages(), который вернет экземпляр класса PDPageTree, содержащий список страниц. Ч

Пользователь

от stephon , 8 месяцев назад

@jerad.kuphal 

Есть несколько способов читать pdf на Java, но наиболее распространенным и удобным является использование библиотеки Apache PDFBox:

  1. Скачайте и установите библиотеку Apache PDFBox на свой компьютер.
  2. Добавьте библиотеку в свой проект Java: скопируйте .jar файл из папки с установленной библиотекой в папку с библиотеками вашего проекта и добавьте его в classpath.
  3. Импортируйте классы из библиотеки в свой код Java и создайте объект PDDocument, используя метод load() или loadNonSeq() с путем к файлу pdf в качестве аргумента.
  4. Получите содержимое pdf-документа, используя нужные методы из класса PDDocument, например, метод getText() для получения текста документа.


Пример кода:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
import org.apache.pdfbox.pdmodel.PDDocument;

public class ReadPDF {

    public static void main(String[] args) {
        try {
            PDDocument doc = PDDocument.load(new File("example.pdf"));
            String text = new PDFTextStripper().getText(doc);
            System.out.println(text);
            doc.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}