RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1586007
Accepted
Angelina
Angelina
Asked:2024-07-03 18:55:37 +0000 UTC2024-07-03 18:55:37 +0000 UTC 2024-07-03 18:55:37 +0000 UTC

如何查找一个用户会话中包含的某些事件之间的平均时间?

  • 772

请帮我找出一次会话中某些事件之间的平均时间。

例如,有一个数据框:

data = {
'id': [1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5],
'event': ['login', 'news', 'comment', 'login', 'news', 'advt', 'login', 'like', 'comment', 'login', 'news', 'comment', 'login'],
'data': ['2023-03-15 10:00:00', '2023-03-15 10:05:00', '2023-03-15 10:10:00', '2023-03-15 10:15:00', 
         '2023-03-16 11:00:01', '2023-03-16 11:05:06', '2023-03-16 11:10:10',
         '2023-03-17 12:00:02', '2023-03-17 12:05:00', '2023-03-17 12:10:30',
         '2023-03-18 13:00:05', '2023-03-18 13:05:11', '2023-03-18 13:10:00', '2023-03-18 13:10:00']}

id 是会话 ID。如何找到每个会话 ID 登录之间以及新闻或广告事件之间的平均时间?步骤顺序严格,第一步是登录,第二步是选择事件。有时在会话中似乎登录较晚。另外,如何优化代码以便尽快处理大型数据帧?

python
  • 2 2 个回答
  • 35 Views

2 个回答

  • Voted
  1. Алексей Р
    2024-07-03T19:33:54Z2024-07-03T19:33:54Z

    代码中的注释

    data = {
        'id': [1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5],
        'event': ['login', 'news', 'comment', 'login', 'news', 'advt', 'login', 'like', 'comment', 'login', 'news', 'comment', 'login'],
        'data': ['2023-03-15 10:00:00', '2023-03-15 10:05:00', '2023-03-15 10:10:00', '2023-03-15 10:15:00',
                 '2023-03-16 11:00:01', '2023-03-16 11:05:06', '2023-03-16 11:10:10',
                 '2023-03-17 12:00:02', '2023-03-17 12:05:00', '2023-03-17 12:10:30',
                 '2023-03-18 13:00:05', '2023-03-18 13:05:11', '2023-03-18 13:10:00']}
    
    df = pd.DataFrame(data).astype({'data': 'datetime64[ns]'}) # создаем фрейм и преобразуем столбец `data` в тип даты/времени
    
    logint = df[df['event'].eq('login')].groupby('id').last()['data']  # находим дату последнего (если их несколько) логинов для каждого ид
    df = df.merge(logint, left_on='id', right_index=True, suffixes=('_event', '_login'))  # проставляем во все строки фрейма моменты ранее найденных логинов для каждого ид
    df = df[df['event'].isin(['news', 'advt'])]  # фильтруем фрейм, оставляя только нужные события
    df['delta'] = df['data_event'].sub(df['data_login'])  # вычитаем из моментов событий моменты логинов
    avg = df.groupby('id')['delta'].mean()  # группируем фрейм по ид, находя по каждой группе среднее время. Если нужно в секундах, дописываем в конце .dt.total_seconds(), если в часах - еще .div(3600)
    print(avg)
    
    id
    1          0 days 00:05:00
    2   1 days 00:47:33.500000
    4          1 days 00:49:35
    Name: delta, dtype: timedelta64[ns]
    
    • 3
  2. Best Answer
    CrazyElf
    2024-07-03T19:13:14Z2024-07-03T19:13:14Z

    好吧,我将向您展示一个大致的行动方案,然后根据您的任务自行调整:

    import pandas as pd
    
    data = {
    'id': [1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5],
    'event': ['login', 'news', 'comment', 'login', 'news', 'advt', 'login', 'like', 'comment', 'login', 'news', 'comment', 'login'],
    'data': ['2023-03-15 10:00:00', '2023-03-15 10:05:00', '2023-03-15 10:10:00', '2023-03-15 10:15:00', 
             '2023-03-16 11:00:01', '2023-03-16 11:05:06', '2023-03-16 11:10:10',
             '2023-03-17 12:00:02', '2023-03-17 12:05:00', '2023-03-17 12:10:30',
             '2023-03-18 13:00:05', '2023-03-18 13:05:11', '2023-03-18 13:10:00']} #, '2023-03-18 13:10:00']}
    
    df = pd.DataFrame(data)
    # на всякий случай сортируем
    df = df.sort_values(['id', 'data'])
    df['data'] = pd.to_datetime(df['data'])
    # отбираем только интересующие нас события
    df1 = df[df.event.isin(['login','news'])].copy()
    # формируем парные события и разницу между ними
    df2 = df1.shift()
    df1['evev'] = df2.event + '-' + df1.event
    df1['diff'] = df1.data - df2.data
    # выводим среднюю разницу по интересующей нас паре событий
    print(df1[df1['evev'] == 'login-news']['diff'].mean())
    

    结论:

    0 days 16:33:12
    
    • 2

相关问题

  • 是否可以以某种方式自定义 QTabWidget?

  • telebot.anihelper.ApiException 错误

  • Python。检查一个数字是否是 3 的幂。输出 无

  • 解析多个响应

  • 交换两个数组的元素,以便它们的新内容也反转

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5