RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1324668
Accepted
SergFSM
SergFSM
Asked:2022-09-02 18:45:07 +0000 UTC2022-09-02 18:45:07 +0000 UTC 2022-09-02 18:45:07 +0000 UTC

使用自定义函数进行分组以进行聚合

  • 772

我有一个这样的数据框:

在此处输入图像描述

需要按分支对数据进行分组,并获取每个分支的总和列的总量。但是除了求和之外,还需要得到每个分支的估计平均值,这就是问题所在。

平均值应计算如下:对于每个组(分支),计算“金额”值与“期限”值的乘积之和,然后除以该组“金额”列中的总和。

通过反复试验,我设法制作了以下工作代码:

import pandas as pd

df = pd.read_csv('df_samp.csv')  # ссылка на файл с фрагментом данных внизу
togroup = df[['филиал', 'сумма', 'срок']][df['срок']>90]  # группируем только строки где "срок" > 90
togroup['средн'] = np.NaN  # добавил столбец для средних значений
grouped = togroup.groupby('филиал').agg(lambda x: int(sum(x.сумма*x.срок)/sum(x.сумма)))[['сумма', 'средн']]

在输出中,我得到以下信息:

在此处输入图像描述

问题本身:

  1. 如何正确组合聚合函数(不确定我的方式是否正确\最佳)?
  2. 如何让 sum 列有总量,而不是重复平均值(不可能为每一列设置一个函数)?
  3. 有没有办法不为总数据插入一个空列,而是在分组时动态创建一个?

UPD: csv格式的数据片段

python
  • 2 2 个回答
  • 10 Views

2 个回答

  • Voted
  1. Best Answer
    strawdog
    2022-09-02T21:26:00Z2022-09-02T21:26:00Z

    据我了解,您需要根据计算获得两个新列。您可能可以这样做:

    res = df[df['срок']>90].groupby('филиал')[['филиал', 'сумма', 'срок']].apply(
        lambda x: pd.Series({"сумм": x["сумма"].sum(), "сред": (x["сумма"]*x["срок"]).sum()/x["сумма"].sum()}))
    

    那么对于您的示例,结果将是:

                                                 сумм         сред
    филиал                                                        
    Алтайский КРТПЦ                         736451.97  1488.739564
    Волгоградский ОРТПЦ                          0.70  1281.000000
    Воронежский ОРТПЦ                        98343.38  1115.403130
    Дальневосточный РЦ                     1149160.45   458.215772
    Забайкальский КРТПЦ                     103737.64   750.595304
    Камчатский КРТПЦ                           960.44   367.000000
    Краснодарский КРТПЦ                     482443.26   291.000000
    Курганский ОРТПЦ                         90024.04   508.825266
    Магаданский ОРТПЦ                        57254.29   496.717449
    Московский РЦ                          4129843.28   820.056739
    Нижегородский ОРТПЦ                     812323.32   169.279333
    РТПЦ Еврейской АО                           72.00   946.000000
    РТПЦ Кабардино-Балкарской Республики    124682.40   504.500000
    РТПЦ Карачаево-Черкесской Республики    680824.77   563.927502
    РТПЦ Республики Калмыкия                  1049.90  1914.730536
    РТПЦ Республики Коми                    180949.45  1226.852839
    РТПЦ Республики Крым                  15260435.65   958.266395
    РТПЦ Республики Тыва                     23280.00   108.000000
    РТПЦ Чувашской Республики                 3658.38  1845.862666
    Саратовский ОРТПЦ                        26066.24   141.016411
    Свердловский ОРТПЦ                         967.23   885.000000
    Сибирский РЦ                             32272.12   442.000000
    Тульский ОРТПЦ                          101816.17   494.907639
    Урало-Сибирский РЦ                      620750.47   500.127947
    Челябинский ОРТПЦ                        68354.00   797.511367
    

    当然需要检查。

    • 3
  2. MaxU - stop genocide of UA
    2022-09-03T00:07:24Z2022-09-03T00:07:24Z

    你可以这样做:

    res = (df
           [['филиал', 'сумма', 'срок']]
           .query("срок > 90")
           .assign(сред=df["сумма"]*df["срок"])
           .groupby("филиал")
           .agg(
               сумм=("сумма","sum"), 
               сред=("сред", "sum"))
           .eval("сред = сред / сумм"))
    

    结果:

    In [129]: res
    Out[129]:
                                                 сумм         сред
    филиал
    Алтайский КРТПЦ                         736451.97  1488.739564
    Волгоградский ОРТПЦ                          0.70  1281.000000
    Воронежский ОРТПЦ                        98343.38  1115.403130
    Дальневосточный РЦ                     1149160.45   458.215772
    Забайкальский КРТПЦ                     103737.64   750.595304
    Камчатский КРТПЦ                           960.44   367.000000
    Краснодарский КРТПЦ                     482443.26   291.000000
    Курганский ОРТПЦ                         90024.04   508.825266
    Магаданский ОРТПЦ                        57254.29   496.717449
    Московский РЦ                          4129843.28   820.056739
    Нижегородский ОРТПЦ                     812323.32   169.279333
    РТПЦ Еврейской АО                           72.00   946.000000
    РТПЦ Кабардино-Балкарской Республики    124682.40   504.500000
    РТПЦ Карачаево-Черкесской Республики    680824.77   563.927502
    РТПЦ Республики Калмыкия                  1049.90  1914.730536
    РТПЦ Республики Коми                    180949.45  1226.852839
    РТПЦ Республики Крым                  15260435.65   958.266395
    РТПЦ Республики Тыва                     23280.00   108.000000
    РТПЦ Чувашской Республики                 3658.38  1845.862666
    Саратовский ОРТПЦ                        26066.24   141.016411
    Свердловский ОРТПЦ                         967.23   885.000000
    Сибирский РЦ                             32272.12   442.000000
    Тульский ОРТПЦ                          101816.17   494.907639
    Урало-Сибирский РЦ                      620750.47   500.127947
    Челябинский ОРТПЦ                        68354.00   797.511367
    
    • 3

相关问题

  • 是否可以以某种方式自定义 QTabWidget?

  • telebot.anihelper.ApiException 错误

  • Python。检查一个数字是否是 3 的幂。输出 无

  • 解析多个响应

  • 交换两个数组的元素,以便它们的新内容也反转

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    表格填充不起作用

    • 2 个回答
  • Marko Smith

    提示 50/50,有两个,其中一个是正确的

    • 1 个回答
  • Marko Smith

    在 PyQt5 中停止进程

    • 1 个回答
  • Marko Smith

    我的脚本不工作

    • 1 个回答
  • Marko Smith

    在文本文件中写入和读取列表

    • 2 个回答
  • Marko Smith

    如何像屏幕截图中那样并排排列这些块?

    • 1 个回答
  • Marko Smith

    确定文本文件中每一行的字符数

    • 2 个回答
  • Marko Smith

    将接口对象传递给 JAVA 构造函数

    • 1 个回答
  • Marko Smith

    正确更新数据库中的数据

    • 1 个回答
  • Marko Smith

    Python解析不是css

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5