import olefile
ole = olefile.OleFileIO('./Путь_к_файлу/файл.doc') //путь к Вашему файлу.
print(ole.openstream('WordDocument').read().decode("utf-16", "ignore"))
//Декодирование данных из бинарной системы. (При многократном изменении файла - могут возникать проблемы символов кодировки. В этом случае используйте параметр ignore или replace.
您还可以使用正则表达式、拉丁文和俄文字符以及数字来初始处理数据。
在系统中安装并使用antiword
import os
input_word_file = "1.doc"
output_text_file = "output_file.txt"
os.system('antiword %s > %s' % (input_word_file, output_text_file))
//Далее работать с текстом в файле output_file.txt
谢尔盖·安德烈耶夫。为了从 doc 文件中获取数据,您可以使用多种方法。
您还可以使用正则表达式、拉丁文和俄文字符以及数字来初始处理数据。
使用 ezodf 库
您可以在此处查看示例
文本库
docx2txt 库
docx 库
doc/docx 也是压缩的 xml。
doc 格式是一种没有开放内容的二进制格式。因此,没有明确的机制来阅读它。
下面是一个将doc翻译成txt的例子安装pywin32。
也许最好在docx中重新保存?