SergFSM提出的问题

SergFSM

Asked: 2022-12-01 18:37:16 +0000 UTC

在熊猫中使用大整数

6

如果您告诉我是否有一种方法可以在 Pandas 中处理非常大的整数，我将不胜感激。

例如，int64 数据类型是从 -9223372036854775808 到 9223372036854775807 范围内的数字，如果计算结果不是这个范围内的数字，那么我们得到的并不完全是预期的：

79**10  
>>>
9468276082626847201

pd.Series([78,79])**10
>>>
0    8335775831236199424
1   -8978467991082704415
dtype: int64

SergFSM

Asked: 2022-07-12 06:45:40 +0000 UTC

python通过多个键对数据框列进行排序

0

假设有一个这种类型的数据框（可能有更多列）：

d = {'ATTRIBUTE_NAME': 
     ['Raw_Read_Error_Rate',
      'Reallocate_NAND_Blk_Cnt',
      'Power_On_Hours',
      'Power_Cycle_Count',
      'Program_Fail_Count',
      'Erase_Fail_Count',
      'Ave_Block-Erase_Count',
      'Unexpect_Power_Loss_Ct',
      'Unused_Reserve_NAND_Blk',
      'SATA_Interfac_Downshift',
      'Error_Correction_Count',
      'Reported_Uncorrect',
      'Temperature_Celsius',
      'Reallocated_Event_Count',
      'Current_Pending_Sector',
      'Offline_Uncorrectable',
      'UDMA_CRC_Error_Count',
      'Percent_Lifetime_Remain',
      'Write_Error_Rate',
      'Success_RAIN_Recov_Cnt',
      'Total_Host_Sector_Write',
      'Host_Program_Page_Count',
      'FTL_Program_Page_Count']}

df = pd.DataFrame(d)

必须通过以下键按“ATTRIBUTE_NAME”列排序：首先以“Count”结尾的行，然后按行长排序，然后按字典顺序。

如果您需要通过类似的键对简单列表进行排序，那么这很简单，只需使用 'key' 参数即可：

sorted(l, key=lambda x: (-x.endswith('Count'), len(x), x))

但在数据框的情况下，并非一切都那么明显。'sort_values()' 方法也有一个 'key' 参数，但它接受一个 'Series' 对象并返回相同的对象。

不会出现简单的排序问题。例如，这些键分别工作：

df.sort_values('ATTRIBUTE_NAME', key=lambda x: -x.str.endswith('Count'))
df.sort_values('ATTRIBUTE_NAME', key=lambda x: x.str.len())

但现在不可能组合这些键。我想出了一种笨拙的方式来接受和返回“系列”对象的键：

def multi_sort(s):
    l = sorted(s.items(), key=lambda x: (-x[1].endswith('Count'), len(x[1]), x[1]))
    return pd.Series(dict(l))

df.sort_values('ATTRIBUTE_NAME', key=multi_sort)

但是这种排序给了我一个我不清楚的结果：

'''
             ATTRIBUTE_NAME
4        Program_Fail_Count
15    Offline_Uncorrectable
0       Raw_Read_Error_Rate
5          Erase_Fail_Count
6     Ave_Block-Erase_Count
7    Unexpect_Power_Loss_Ct
14   Current_Pending_Sector
18         Write_Error_Rate
1   Reallocate_NAND_Blk_Cnt
9   SATA_Interfac_Downshift
2            Power_On_Hours
12      Temperature_Celsius
19   Success_RAIN_Recov_Cnt
8   Unused_Reserve_NAND_Blk
11       Reported_Uncorrect
20  Total_Host_Sector_Write
16     UDMA_CRC_Error_Count
13  Reallocated_Event_Count
21  Host_Program_Page_Count
3         Power_Cycle_Count
17  Percent_Lifetime_Remain
22   FTL_Program_Page_Count
10   Error_Correction_Count

帮我弄清楚并告诉我是否有一种方法可以按几个键排序，因为它是在“sorted()”函数中实现的？

UPD。

感谢@strawdog 的帮助，我设法了解了在按多个键对列进行排序时如何使用key该方法sort_values()，这要感谢他：

df = df.sort_values(by="ATTRIBUTE_NAME",
                    key=lambda s: s.map(lambda x: (-x.endswith("Count"), len(x), x)))

SergFSM

Asked: 2022-09-17 19:15:23 +0000 UTC

分组DataFrame时如何更改级别的层次结构？

2

假设我们有一个这样的 DataFrame：

samp = pd.DataFrame({'region': ['North','North','South','South','East','East','West','West'], 
                     'store': list('ABCDEFGH'), 
                     'num': 100, 
                     'year':['2020','2020','2021','2021','2021','2021','2020','2021']})

  region store  num  year
0  North     A  100  2020
1  North     B  100  2020
2  South     C  100  2021
3  South     D  100  2021
4   East     E  100  2021
5   East     F  100  2021
6   West     G  100  2020
7   West     H  100  2021

需要按行对地区数据进行分组，按列对年份进行分组。

我通过 pivot_table or 来执行此操作groupby，这给出了相同的结果。或多或少是这样的：

pd.pivot_table(samp, index='region', columns='year',values=['store','num'],
                   aggfunc={'store': 'count','num':'sum'})

samp.groupby(['region','year']).agg(
           total_num=("num","sum"), 
           stores=("store", "count")).unstack()

我们以以下形式在输出中获得必要的数据：

         total_num      stores     
year     2020   2021    2020 2021
region                             
East      NaN  200.0    NaN  2.0
North   200.0    NaN    2.0  NaN
South     NaN  200.0    NaN  2.0
West    100.0  100.0    1.0  1.0

是否可以以某种方式更改分组顺序（层次结构？）以获取这种形式的数据（即按年份对列进行分组）：

       2020                2021
values total_num  stores   total_num  stores
region                             
East         NaN     NaN        200.0    2.0
North      200.0     2.0          NaN    NaN
South        NaN     NaN        200.0    2.0
West       100.0     1.0        100.0    1.0

在 Excel 数据透视表中，只需轻轻移动鼠标即可完成此操作，但在这里我找不到以这种形式显示数据的方法。swaplevel基本上不会改变任何东西。

这可以以某种方式完成吗？

SergFSM

Asked: 2022-09-02 18:45:07 +0000 UTC

使用自定义函数进行分组以进行聚合

1

我有一个这样的数据框：

需要按分支对数据进行分组，并获取每个分支的总和列的总量。但是除了求和之外，还需要得到每个分支的估计平均值，这就是问题所在。

平均值应计算如下：对于每个组（分支），计算“金额”值与“期限”值的乘积之和，然后除以该组“金额”列中的总和。

通过反复试验，我设法制作了以下工作代码：

import pandas as pd

df = pd.read_csv('df_samp.csv')  # ссылка на файл с фрагментом данных внизу
togroup = df[['филиал', 'сумма', 'срок']][df['срок']>90]  # группируем только строки где "срок" > 90
togroup['средн'] = np.NaN  # добавил столбец для средних значений
grouped = togroup.groupby('филиал').agg(lambda x: int(sum(x.сумма*x.срок)/sum(x.сумма)))[['сумма', 'средн']]

在输出中，我得到以下信息：

问题本身：

如何正确组合聚合函数（不确定我的方式是否正确\最佳）？
如何让 sum 列有总量，而不是重复平均值（不可能为每一列设置一个函数）？
有没有办法不为总数据插入一个空列，而是在分组时动态创建一个？

UPD： csv格式的数据片段

在熊猫中使用大整数

python通过多个键对数据框列进行排序

分组DataFrame时如何更改级别的层次结构？

使用自定义函数进行分组以进行聚合

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

SergFSM's questions