是否可以以某种方式自定义 QTabWidget？

Question

ikikaidesu

Asked:2024-01-29 23:34:39 +0000 UTC2024-01-29 23:34:39 +0000 UTC 2024-01-29 23:34:39 +0000 UTC

python pdf文件读取错误

772

我正在编写读取 pdf 文件并将其转换为 DataFrame 的代码。

table = tabula.read_pdf(pdf_schedule, pages='all', multiple_tables=True, lattice=True)

问题是，在我传入的文件中，有时左侧的第一个元素没有边，导致表格具有 NaN 而不是该单元格的数据。该怎么办？
这是所有代码

columns = table[0].columns
# Создание списка строк
rows_list = []
for t in table:
    for _, row in t.iterrows():
        rows_list.append(row)
# Создание DataFrame из списка строк с явным указанием столбцов
df = pd.DataFrame(rows_list, columns=columns)

这是表格行的第一个元素不正确的示例的屏幕截图

1 个回答

Voted

Сергей Кох · Answer 1 · 2024-01-30T00:13:48Z

使用tabula我无法从之前已删除的问题中很好地复制您的表格。但在的帮助下很容易阅读PyMuPDF。去年他们添加了表格识别和提取工具。您可以在这里阅读相关内容。首先，当然是pip install pymupdf。

import fitz  # import package PyMuPDF


doc = fitz.open("table.pdf")

page_1 = doc[0]  # this is the first page
tab = page_1.find_tables()[0]

df = tab.to_pandas()
print(df.to_string())

--------------------------------

                                   Преподаватели      1 пара\n08:30-10:00 2 пара\n1 0 :10-11:40 3 п а ра\n1 2 :20-13:50 4 п а р а\n14:00-15:30 5 п а р а\n15:50-17:20 6 п а р а\n17:30-19:00 7 п ара\n19:10-20:40
0                      Абз****** Ришат **********     3ИСИП-621\n3ИСИП-821  3ИСИП-621\n3ИСИП-821   3 ИСИП-621\n3ИСИП-821              3ИСИП-821                                                                   
1                                           ауд.                      102                   102                     102                    102                                                                   
2                     Аз****** Вера ************              2ОИБАС-1022             1ИСИП-923              1ИСИП-1023                                                                                          
3                                           ауд.  202а кл. час / акт зал.                  202а                    202а                                                                                          
4                     Ак**** Владимир **********                                    1ОИБАС-1323             1ОИБАС-1423              1ИСИП-523              1ИСИП-623                                            
5                                           ауд.                                            308                     308                    308                    308                                           
.............................
.............................

75                                          ауд.                      ДОТ                   ДОТ                     ДОТ                    ДОТ                    ДОТ                    ДОТ                     
76                Ра******* Наталья ************                1ИСИП-323             1ИСИП-523               1ИСИП-523              1ИСИП-923            1ОИБАС-1223

我认为你可以自己处理第二页。我隐藏了名字以免让任何人感到困惑。

python pdf文件读取错误

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

python pdf文件读取错误

1 个回答

相关问题