RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1410307
Accepted
Vasyl Kolomiets
Vasyl Kolomiets
Asked:2022-07-16 13:26:12 +0000 UTC2022-07-16 13:26:12 +0000 UTC 2022-07-16 13:26:12 +0000 UTC

Pandas read_csv() 抛出 ParserError: Error tokenizing data。C 错误:字符串中的 EOF

  • 772

在处理文件时,我从不同的来源和不同的编码中获取它们。因此,在一个循环中,我遍历列表中可能的编码en_codings = ['utf-8', "cp1250", "cp1251", "cp1252", "latin1", "utf-8-sig"] 并使用发生读取的编码。

任务参数允许你跳过“坏行”,所以我on_bad_lines="skip"在我的pandas版本 1.4.2 中使用了该参数。大多数文件至少以某种方式处理。有时会有一个“损坏”的文件,其中最后一行不包含所有元素。然后,尽管on_bad_lines="skip"给出了错误ParserError: Error tokenizing data. C error: EOF inside string starting at row 4390,尽管在我的理解中它只是不得不被跳过......

附件:csv 文件。但这是最后几行的样子:

在此处输入图像描述

如您所见,最后一行已损坏。

我想找到一个pandas.read_csv()可以跳过这种坏行变体的参数组合。我再说一遍 - 问题是它是最后一个......文件中间的相同行通常会被跳过。
哦,是的-Windows 10。

添加。 问题是由于在启动新字段的打开引号之后捕获了文件结尾字符这一事实。如果您使用句柄引用引号,则读取该文件。

python pandas
  • 3 3 个回答
  • 89 Views

3 个回答

  • Voted
  1. Vasyl Kolomiets
    2022-07-18T14:48:30Z2022-07-18T14:48:30Z

    在@Namerek 的暗示性回答之后找到了这样的解决方案。

    pandas.read_csv - 有一个参数engine默认情况下它被接受为С. 如果我安装 python我的文件,则文件通过。

    所以解决方案如下所示:

                    readed_into_df = pd.read_csv(
                        str(file_name),
                        sep=separator,
                        encoding=en_coding,
                        on_bad_lines="skip",
                        engine='python',
                    )
    

    这个决定的主要内容是添加了一个新参数engine='python'。

    更新。 我承认@Namerek 选项背后的决定。在小文件上,我的版本还不错。但在 1.5GB 时,读取延迟了 40 多分钟。这都是因为这 500 万行是由 Python 代码解析的……
    但是通过模块读入字典的技巧可以csv在一分钟内完成。
    所以谢谢!!

    • 2
  2. Best Answer
    Namerek
    2022-07-17T02:57:45Z2022-07-17T02:57:45Z
    import csv
    import pandas as pd
    
    
    with open('data.csv', 'r', encoding='utf-8') as file:
        reader = csv.DictReader(file)
        df = pd.DataFrame(reader)
    
    • 1
  3. CrazyElf
    2022-07-16T15:08:28Z2022-07-16T15:08:28Z

    在英语 SO中,他们建议添加以下选项(分别尝试和一起尝试):

    quoting=3, error_bad_lines=False
    

    其实3是这样csv.QUOTE_NONE,但是要写成这种形式,还需要连接一个额外的模块import csv,之后就可以写成更容易理解的形式了quoting=csv.QUOTE_NONE。

    • 0

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5