2020年新年大赛！

Question

Сергей Андреев

Asked:2020-12-31 18:28:37 +0000 UTC2020-12-31 18:28:37 +0000 UTC 2020-12-31 18:28:37 +0000 UTC

如何从 .doc 文件中提取文本？

772

需要从 .doc 文件中提取文本。我如何以及使用什么库来完成这项任务？

2 个回答

Voted

Denis640Kb · Answer 1 · 2020-12-31T20:20:48Z

Best Answer

Denis640Kb

2020-12-31T20:20:48Z2020-12-31T20:20:48Z

谢尔盖·安德烈耶夫。为了从 doc 文件中获取数据，您可以使用多种方法。

使用 olefile 库示例：

import olefile


ole = olefile.OleFileIO('./Путь_к_файлу/файл.doc') //путь к Вашему файлу.
print(ole.openstream('WordDocument').read().decode("utf-16", "ignore"))

//Декодирование данных из бинарной системы. (При многократном изменении файла - могут возникать проблемы символов кодировки. В этом случае используйте параметр ignore или replace.

您还可以使用正则表达式、拉丁文和俄文字符以及数字来初始处理数据。

在系统中安装并使用antiword

 import os
input_word_file = "1.doc"
output_text_file = "output_file.txt"
os.system('antiword %s > %s' % (input_word_file, output_text_file))
//Далее работать с текстом в файле output_file.txt

使用 ezodf 库

您可以在此处查看示例

1

becouse · Answer 2 · 2020-12-31T18:35:08Z

becouse

2020-12-31T18:35:08Z2020-12-31T18:35:08Z

文本库

import textract
text = textract.process("path/to/file.extension")

docx2txt 库

import docx2txt
my_text = docx2txt.process("test.docx")
print(my_text)

docx 库

import docx

doc = docx.Document("zen_of_python.docx")
result = [p.text for p in doc.paragraphs]

doc/docx 也是压缩的 xml。

doc 格式是一种没有开放内容的二进制格式。因此，没有明确的机制来阅读它。

下面是一个将doc翻译成txt的例子安装pywin32。

import win32com.client

app = win32com.client.Dispatch("Word.Application")

try:

    wb = app.Documents.Open('d:/test/test.doc')
    doc = app.ActiveDocument

    with open('out.txt', 'w', encoding = 'utf-16') as f:
        f.write(doc.Content.Text)

except Exception as e:
    print(e)

finally:
    app.Quit()

也许最好在docx中重新保存？

0

如何从 .doc 文件中提取文本？

根据浏览器窗口的大小调整背景图案的大小

理解for循环的执行逻辑

复制动态数组时出错（C++）

Or and If,elif,else 构造[重复]

如何构建支持 x64 的 APK

如何使按钮的输入宽度？

如何显示对象变量的名称？

如何循环一个函数？

LOWORD 宏有什么作用？

从字符串的开头删除直到并包括一个字符

如何从 .doc 文件中提取文本？

2 个回答

相关问题