是否可以以某种方式自定义 QTabWidget？

Question

Ярослав Саух

Asked:2023-02-02 20:07:14 +0000 UTC2023-02-02 20:07:14 +0000 UTC 2023-02-02 20:07:14 +0000 UTC

使用文件第一行中指定的不同编码从 csv 文件创建 DataFrame

772

有1000 个csv 文件。它们都有不同的编码。我想用它们制作一个 DataFrame，但出现错误

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x84 in position 37: invalid start byte

csv 文件的结构如下

也就是说，编码在第一行指示，但不清楚如何将其传递给 pandas 以便它正确读取数据。

像这样试过但没有用

import pandas as pd
from pathlib import Path

data_dir = Path("data/")
df = pd.concat([pd.read_csv(f) for f in data_dir.glob("*.csv")])
print(df)

在输出中，您需要获得一个包含实体、值、字符串列的 csv 文件。此数据必须取自这 1000 个文件（逗号分隔符）。

1 个回答

Voted

insolor · Answer 1 · 2023-02-02T20:25:18Z

只是让它不是一个单行的，而是一个很好的旧 for 循环。在循环中，读取文件的第一行，然后将其作为编码传递给read_csv. 把所有东西都列在清单上。在循环之后做pd.concat。

import pandas as pd
from pathlib import Path

data_dir = Path("data/")

result = []

for f in data_dir.glob("*.csv"):
    print("File:", f)
    with open(f, "rb") as file:
        # В перовой строке файла убираем пробельные символы,
        # берем текст после символа "="
        encoding = file.readline().decode().strip().partition("=")[2]  
    print("Encoding:", encoding)

    # skiprows=1 - пропускаем первую строку файла, она не должна попадать в данные
    # encoding_errors="replace" - при ошибках кодировки (не удалось декодировать указанной кодировкой) заменять символы на "?"
    # header=None - указываем, что в файле нет строки с заголовками колонок
    # on_bad_lines="warn" - выводим предупреждение, например, если в какой-то строке 4 колонки вместо 3 (а не падаем с исключением)
    result.append(pd.read_csv(f, skiprows=1, encoding=encoding, on_bad_lines="warn", encoding_errors="replace", header=None))

df = pd.concat(result)
print(df)

更新：读取 csv 的完整行是这样的：

result.append(pd.read_csv(f, skiprows=1, encoding=encoding, encoding_errors="replace", header=None, names=list("12345")))

添加了列名 - 1、2、3、4、5，因此默认情况下它假定有 5 列（出于test-684.csv某种原因，它在文件中确定其中一行中有五列，为什么 - 我不还不明白）。

使用文件第一行中指定的不同编码从 csv 文件创建 DataFrame

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

使用文件第一行中指定的不同编码从 csv 文件创建 DataFrame

1 个回答

相关问题