是否可以以某种方式自定义 QTabWidget？

Question

overxffff

Asked:2024-07-24 18:03:30 +0800 CST2024-07-24 18:03:30 +0800 CST 2024-07-24 18:03:30 +0800 CST

确定 XLS 中的编码

772

如何确定xls中的编码？

Windows 程序以 xls 格式生成报告，以 cp1251 编码生成西里尔文条目，有时在 LibreOffice 中编辑报告，LibreOffice 可以正常打开并以 utf-8 格式保存条目，使用 cp1251 编码的 Pandas 显示不可读的文本并因错误而崩溃。如何确定xls中的字符编码，如果我不知道报告是否被编辑过，如果不需要utf-8编码，如果cp1251编码需要重新编码为utf-8（我可以重新编码）。

编辑前的文件https://disk.yandex.ru/d/m6p2XH-LgobpJg 在 libreOffice 中编辑后的文件https://disk.yandex.ru/i/jZud5jiqLQQdRw

如果您打开 otchet.xls

excel_data = pd.read_excel('otchet.xls')

出现该消息

*** No CODEPAGE record, no encoding_override: will use 'iso-8859-1'
и в другой функции 
ValueError: cannot convert float NaN to integer

如果你像这样打开它，一切也都可以正常打开，但是你如何确定以什么编码打开它呢？

import xlrd
workbook = xlrd.open_workbook(source_file, encoding_override='cp1251')

2 个回答

Voted

Алексей Р · Answer 1 · 2024-07-24T20:07:22+08:00

您可以尝试简单地区分原始文件和重新保存的文件。因此，在原始字节中，第一个字节是0x09，而在重新保存的字节中，第一个字节是0xD0。如果标记稳定（您需要在其他文件上检查它），那么这将起作用。

import pandas as pd
import xlrd

original, modified = '09', 'd0'
for file in r'c:\Users\Alex20\Downloads\otchet.xls', r'c:\Users\Alex20\Downloads\otchet_after_edit.xls':
    with open(file, 'rb') as f:
        first_byte = f.read(1).hex()
        if first_byte == original:
            wb = xlrd.open_workbook(file, encoding_override='cp1251')
            df = pd.read_excel(wb)
        elif first_byte == modified:
            df = pd.read_excel(file)
        else:
            print(f'Файл `{file}` имеет неизвестный формат, чтение невозможно')
    print(file, '\n', df)

c:\Users\Alex20\Downloads\otchet.xls 
           Имя  № сотрудника           Дата Время Состояние   Описание исключения  Рабочий код
0  Корнилов К          9997  2024-07-15 07:09:51    Пришел  Неправильное состоян          0.0
1  Корнилов К          9997  2024-07-15 16:53:47      Ушел  Неправильное состоян          0.0
2  Корнилов К          9997  2024-07-16 07:14:21    Пришел  Неправильное состоян          0.0
3  Корнилов К          9997  2024-07-16 17:01:08      Ушел  Неправильное состоян          0.0
c:\Users\Alex20\Downloads\otchet_after_edit.xls 
           Имя  № сотрудника           Дата Время Состояние   Описание исключения  Рабочий код
0  Корнилов К          9997  2024-07-15 07:09:51    Пришел  Неправильное состоян            0
1  Корнилов К          9997  2024-07-15 16:53:47      Ушел  Неправильное состоян            0
2  Корнилов К          9997  2024-07-16 07:14:21    Пришел  Неправильное состоян            0
3  Корнилов К          9997  2024-07-16 17:01:08      Ушел  Неправильное состоян            0

CrazyElf · Answer 2 · 2024-07-24T19:57:06+08:00

CrazyElf

2024-07-24T19:57:06+08:002024-07-24T19:57:06+08:00

您可以简单地循环可能的编码，直到不抛出异常：

import xlrd
import pandas as pd

def read_excel(filename):
    for encoding in ('UTF-8', 'cp1251'):
        try:
            wb = xlrd.open_workbook(filename, encoding_override=encoding)
            df = pd.read_excel(wb)
            return df
        except:
            print(f'Не удалось прочитать файл {filename} в кодировке {encoding}')
    print(f'Не удалось найти подходящую кодировку для файла {filename}')

df = read_excel('otchet.xls')

1

确定 XLS 中的编码

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

确定 XLS 中的编码

2 个回答

相关问题