RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1563868
Accepted
ikikaidesu
ikikaidesu
Asked:2024-01-29 23:34:39 +0000 UTC2024-01-29 23:34:39 +0000 UTC 2024-01-29 23:34:39 +0000 UTC

python pdf文件读取错误

  • 772

我正在编写读取 pdf 文件并将其转换为 DataFrame 的代码。

table = tabula.read_pdf(pdf_schedule, pages='all', multiple_tables=True, lattice=True)

问题是,在我传入的文件中,有时左侧的第一个元素没有边,导致表格具有 NaN 而不是该单元格的数据。该怎么办?
这是所有代码

columns = table[0].columns
# Создание списка строк
rows_list = []
for t in table:
    for _, row in t.iterrows():
        rows_list.append(row)
# Создание DataFrame из списка строк с явным указанием столбцов
df = pd.DataFrame(rows_list, columns=columns)

这是表格行的第一个元素不正确的示例的屏幕截图

在此输入图像描述

python
  • 1 1 个回答
  • 32 Views

1 个回答

  • Voted
  1. Best Answer
    Сергей Кох
    2024-01-30T00:13:48Z2024-01-30T00:13:48Z

    使用tabula我无法从之前已删除的问题中很好地复制您的表格。但在 的帮助下很容易阅读PyMuPDF。去年他们添加了表格识别和提取工具。您可以在这里阅读相关内容。首先,当然是pip install pymupdf。

    import fitz  # import package PyMuPDF
    
    
    doc = fitz.open("table.pdf")
    
    page_1 = doc[0]  # this is the first page
    tab = page_1.find_tables()[0]
    
    df = tab.to_pandas()
    print(df.to_string())
    
    --------------------------------
    
                                       Преподаватели      1 пара\n08:30-10:00 2 пара\n1 0 :10-11:40 3 п а ра\n1 2 :20-13:50 4 п а р а\n14:00-15:30 5 п а р а\n15:50-17:20 6 п а р а\n17:30-19:00 7 п ара\n19:10-20:40
    0                      Абз****** Ришат **********     3ИСИП-621\n3ИСИП-821  3ИСИП-621\n3ИСИП-821   3 ИСИП-621\n3ИСИП-821              3ИСИП-821                                                                   
    1                                           ауд.                      102                   102                     102                    102                                                                   
    2                     Аз****** Вера ************              2ОИБАС-1022             1ИСИП-923              1ИСИП-1023                                                                                          
    3                                           ауд.  202а кл. час / акт зал.                  202а                    202а                                                                                          
    4                     Ак**** Владимир **********                                    1ОИБАС-1323             1ОИБАС-1423              1ИСИП-523              1ИСИП-623                                            
    5                                           ауд.                                            308                     308                    308                    308                                           
    .............................
    .............................
    
    75                                          ауд.                      ДОТ                   ДОТ                     ДОТ                    ДОТ                    ДОТ                    ДОТ                     
    76                Ра******* Наталья ************                1ИСИП-323             1ИСИП-523               1ИСИП-523              1ИСИП-923            1ОИБАС-1223                          
    
    

    我认为你可以自己处理第二页。我隐藏了名字以免让任何人感到困惑。

    • 3

相关问题

  • 是否可以以某种方式自定义 QTabWidget?

  • telebot.anihelper.ApiException 错误

  • Python。检查一个数字是否是 3 的幂。输出 无

  • 解析多个响应

  • 交换两个数组的元素,以便它们的新内容也反转

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5