是否可以以某种方式自定义 QTabWidget？

Question

SergFSM

Asked:2022-09-02 18:45:07 +0000 UTC2022-09-02 18:45:07 +0000 UTC 2022-09-02 18:45:07 +0000 UTC

使用自定义函数进行分组以进行聚合

772

我有一个这样的数据框：

需要按分支对数据进行分组，并获取每个分支的总和列的总量。但是除了求和之外，还需要得到每个分支的估计平均值，这就是问题所在。

平均值应计算如下：对于每个组（分支），计算“金额”值与“期限”值的乘积之和，然后除以该组“金额”列中的总和。

通过反复试验，我设法制作了以下工作代码：

import pandas as pd

df = pd.read_csv('df_samp.csv')  # ссылка на файл с фрагментом данных внизу
togroup = df[['филиал', 'сумма', 'срок']][df['срок']>90]  # группируем только строки где "срок" > 90
togroup['средн'] = np.NaN  # добавил столбец для средних значений
grouped = togroup.groupby('филиал').agg(lambda x: int(sum(x.сумма*x.срок)/sum(x.сумма)))[['сумма', 'средн']]

在输出中，我得到以下信息：

问题本身：

如何正确组合聚合函数（不确定我的方式是否正确\最佳）？
如何让 sum 列有总量，而不是重复平均值（不可能为每一列设置一个函数）？
有没有办法不为总数据插入一个空列，而是在分组时动态创建一个？

UPD： csv格式的数据片段

2 个回答

Voted

strawdog · Answer 1 · 2022-09-02T21:26:00Z

据我了解，您需要根据计算获得两个新列。您可能可以这样做：

res = df[df['срок']>90].groupby('филиал')[['филиал', 'сумма', 'срок']].apply(
    lambda x: pd.Series({"сумм": x["сумма"].sum(), "сред": (x["сумма"]*x["срок"]).sum()/x["сумма"].sum()}))

那么对于您的示例，结果将是：

                                             сумм         сред
филиал                                                        
Алтайский КРТПЦ                         736451.97  1488.739564
Волгоградский ОРТПЦ                          0.70  1281.000000
Воронежский ОРТПЦ                        98343.38  1115.403130
Дальневосточный РЦ                     1149160.45   458.215772
Забайкальский КРТПЦ                     103737.64   750.595304
Камчатский КРТПЦ                           960.44   367.000000
Краснодарский КРТПЦ                     482443.26   291.000000
Курганский ОРТПЦ                         90024.04   508.825266
Магаданский ОРТПЦ                        57254.29   496.717449
Московский РЦ                          4129843.28   820.056739
Нижегородский ОРТПЦ                     812323.32   169.279333
РТПЦ Еврейской АО                           72.00   946.000000
РТПЦ Кабардино-Балкарской Республики    124682.40   504.500000
РТПЦ Карачаево-Черкесской Республики    680824.77   563.927502
РТПЦ Республики Калмыкия                  1049.90  1914.730536
РТПЦ Республики Коми                    180949.45  1226.852839
РТПЦ Республики Крым                  15260435.65   958.266395
РТПЦ Республики Тыва                     23280.00   108.000000
РТПЦ Чувашской Республики                 3658.38  1845.862666
Саратовский ОРТПЦ                        26066.24   141.016411
Свердловский ОРТПЦ                         967.23   885.000000
Сибирский РЦ                             32272.12   442.000000
Тульский ОРТПЦ                          101816.17   494.907639
Урало-Сибирский РЦ                      620750.47   500.127947
Челябинский ОРТПЦ                        68354.00   797.511367

当然需要检查。

MaxU - stop genocide of UA · Answer 2 · 2022-09-03T00:07:24Z

你可以这样做：

res = (df
       [['филиал', 'сумма', 'срок']]
       .query("срок > 90")
       .assign(сред=df["сумма"]*df["срок"])
       .groupby("филиал")
       .agg(
           сумм=("сумма","sum"), 
           сред=("сред", "sum"))
       .eval("сред = сред / сумм"))

结果：

In [129]: res
Out[129]:
                                             сумм         сред
филиал
Алтайский КРТПЦ                         736451.97  1488.739564
Волгоградский ОРТПЦ                          0.70  1281.000000
Воронежский ОРТПЦ                        98343.38  1115.403130
Дальневосточный РЦ                     1149160.45   458.215772
Забайкальский КРТПЦ                     103737.64   750.595304
Камчатский КРТПЦ                           960.44   367.000000
Краснодарский КРТПЦ                     482443.26   291.000000
Курганский ОРТПЦ                         90024.04   508.825266
Магаданский ОРТПЦ                        57254.29   496.717449
Московский РЦ                          4129843.28   820.056739
Нижегородский ОРТПЦ                     812323.32   169.279333
РТПЦ Еврейской АО                           72.00   946.000000
РТПЦ Кабардино-Балкарской Республики    124682.40   504.500000
РТПЦ Карачаево-Черкесской Республики    680824.77   563.927502
РТПЦ Республики Калмыкия                  1049.90  1914.730536
РТПЦ Республики Коми                    180949.45  1226.852839
РТПЦ Республики Крым                  15260435.65   958.266395
РТПЦ Республики Тыва                     23280.00   108.000000
РТПЦ Чувашской Республики                 3658.38  1845.862666
Саратовский ОРТПЦ                        26066.24   141.016411
Свердловский ОРТПЦ                         967.23   885.000000
Сибирский РЦ                             32272.12   442.000000
Тульский ОРТПЦ                          101816.17   494.907639
Урало-Сибирский РЦ                      620750.47   500.127947
Челябинский ОРТПЦ                        68354.00   797.511367

使用自定义函数进行分组以进行聚合

表格填充不起作用

提示 50/50，有两个，其中一个是正确的

在 PyQt5 中停止进程

我的脚本不工作

在文本文件中写入和读取列表

如何像屏幕截图中那样并排排列这些块？

确定文本文件中每一行的字符数

将接口对象传递给 JAVA 构造函数

正确更新数据库中的数据

Python解析不是css

使用自定义函数进行分组以进行聚合

2 个回答

相关问题