我正在编写读取 pdf 文件并将其转换为 DataFrame 的代码。
table = tabula.read_pdf(pdf_schedule, pages='all', multiple_tables=True, lattice=True)
问题是,在我传入的文件中,有时左侧的第一个元素没有边,导致表格具有 NaN 而不是该单元格的数据。该怎么办?
这是所有代码
columns = table[0].columns
# Создание списка строк
rows_list = []
for t in table:
for _, row in t.iterrows():
rows_list.append(row)
# Создание DataFrame из списка строк с явным указанием столбцов
df = pd.DataFrame(rows_list, columns=columns)
这是表格行的第一个元素不正确的示例的屏幕截图
使用
tabula
我无法从之前已删除的问题中很好地复制您的表格。但在 的帮助下很容易阅读PyMuPDF
。去年他们添加了表格识别和提取工具。您可以在这里阅读相关内容。首先,当然是pip install pymupdf
。我认为你可以自己处理第二页。我隐藏了名字以免让任何人感到困惑。