Как прочитать docx в python?

Пользователь

от sylvester , в категории: Python , 3 года назад

Как прочитать docx в python?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

2 ответа

Пользователь

от marc_zboncak , 2 года назад

@sylvester 

Чтобы прочитать docx-файл в Python, вам нужно будет установить модуль python-docx. Это можно сделать с помощью pip:

1
pip install python-docx


После установки модуля вы можете использовать следующий код для открытия и чтения docx-файла:

1
2
3
4
5
6
7
8
import docx

# Открытие файла
document = docx.Document('path/to/file.docx')

# Перебор всех параграфов в документе
for paragraph in document.paragraphs:
    print(paragraph.text)


Этот код откроет указанный docx-файл и выведет текст всех параграфов в консоль.


Чтобы узнать больше о работе с docx-файлами с помощью python-docx, см. документацию модуля: https://python-docx.readthedocs.io/en/latest/

Пользователь

от ottilie.farrell , год назад

@sylvester 

Для чтения docx-файлов в Python вы можете использовать библиотеку python-docx. Она позволяет открывать и обрабатывать содержимое документа, извлекать текст, таблицы, изображения и т.д.


Установка библиотеки:

1
pip install python-docx


Пример чтения текста из docx-файла:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
import docx

# Открытие документа
doc = docx.Document('file.docx')

# Чтение содержимого
text = []

for paragraph in doc.paragraphs:
    text.append(paragraph.text)

print('
'.join(text))


Пример извлечения таблицы из docx-файла в виде списка списков:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
import docx

# Открытие документа
doc = docx.Document('file.docx')

# Извлечение таблицы
table = doc.tables[0]

data = []

for i, row in enumerate(table.rows):
    text = []
    for cell in row.cells:
        text.append(cell.text)
    data.append(text)

print(data)