我正在尝试创建类似于 word 文档解析器的东西。任务是在 docx 表格中找到一行指示组织的 TIN 并显示右侧单元格中的 10 位数字
可能的表格视图
我试过这样:
import os
import docx
import re
from docx import Document
doc = docx.Document("D:/Python/sample.docx")
for table in doc.tables:
for row in table.rows:
for cell in row.cells:
print(cell.text)
WordINNfull=re.search(r"(ИНН)\s(\d{10})", cell.text)
print(WordINNfull)
输出是这样的
Полное и сокращенное наименование
Общество с ограниченной ответственностью «»
ООО «»
Организационно-правовая форма
Общество с ограниченной ответственностью
Адрес юридический
444444, Московская область, г. Москва…………………………………
Адрес местонахождения и почтовый адрес
444444, Московская область, г. Москва…………………………………
Руководитель (должность, ФИО)
Директор – Иванов Иван Иванович,
Действует на основании Устава
ОГРН
1111111111111
ОКПО
11111111
ОКАТО
11111111111
ОКТМО
11111111111
Номера контактных телефоном и факсов
8-800-555-35-35
Адрес электронной почты
ya@.ru
ИНН/КПП
ИНН 1111111111/ КПП 111111111
Полные банковские реквизиты
Сбербанк
р/сч 1111111111111111111111111
БИК 1111111111111111
к/с 11111111111111111111
None
>>>
试图改变模板。例如,它"\d"
返回re.Match object; span=(36, 37), match='4'
,但只有“TIN”模板返回 None。
请朝正确的方向踢!
一切都很简单。您分别为每行重新分配变量
WordINNfull
,结果,您仅在最后一行(无)中获得搜索。工作代码如下所示: