RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1561691
Accepted
Follin
Follin
Asked:2024-01-15 16:13:58 +0000 UTC2024-01-15 16:13:58 +0000 UTC 2024-01-15 16:13:58 +0000 UTC

在大型数据框中查找重复项

  • 772

各位同事,下午好!
出现了以下任务:有一个很大的数据框,其中包括客户的全名和他通过的程序。我需要比较df_1和df_2,从而识别那些在新年之前来的人和那些在新年之后又来的人。
我尝试使用#s1 = pd.merge(df_1, df_2, how='inner', on=['Отбор:']) ,但 collab 只是给出了有关超出 RAM 量的错误。

下面是一个示例数据框。

Indx        Отбор:
201 Павловский Александр Танцыс
202 Штраф за задержку в клубе
203 Посещение 2 часа
204 Посещение 2 часа (Выходные дни)
205 Посещение 3 часа (Выходные дни)
206 Татинцян Оганес Валерьевич
207 Штраф за задержку в клубе
208 Посещение 2 часа
209 Посещение 1 час
210 Посещение 1 час (Выходные дни)
211 Посещение 2 часа (Выходные дни)
212 Шмелев Владислав
213 Штраф за задержку в клубе
214 Посещение 2 часа (Выходные дни)
215 Посещение 3 часа (Выходные дни)
216 Агафонов Алексей Владимирович
217 Штраф за задержку в клубе
218 Посещение 1 час
219 Посещение 1 час (Выходные дни)
220 Посещение 2 часа
221 Афанасьев Николай Максимович
222 Штраф за задержку в клубе
223 Посещение 1 час
224 Посещение 1 час (Выходные дни)
225 Иванова Мария Александровна
226 Штраф за задержку в клубе
227 Посещение 1 час
228 Посещение 1 час (Выходные дни)
229 Посещение 2 часа

一般来说,我需要在两个数据框中找到全名的匹配项。数据帧没有什么不同,只是时间段不同。

python
  • 2 2 个回答
  • 83 Views

2 个回答

  • Voted
  1. Best Answer
    Alexey Trukhanov
    2024-01-15T17:33:26Z2024-01-15T17:33:26Z

    我想问题出在下面。您的数据框,更准确地说,您尝试合并的一列包含大量相同的值(服务行),这些值显然包含在第一个和第二个数据框中。在这种情况下,行为的逻辑pd.merge是这样的,它将这些重复值添加到结果数据帧中,数量为 m*n,其中 m 和 n 是第一个和第二个数据帧中相同值的重复次数。因此,您生成的数据帧将扩展到令人难以置信的大小,并且无法容纳任何内存。

    因此,您可以采取以下步骤来解决该问题:

    1.清除服务线的两个数据框:

    df_only_names = df[~df['Отбор:'].str.contains('Штраф|Посещение', regex=True)]
    

    在这里,我们需要确保我们不会被Anton Petrovich Fine(-kin|-kov)抓住

    2.1之后,按merge使用方法使用。

    或者

    2.2从两列 ['Selection:'] 建立集合并获取它们的交集:

    names = set(df_1['Отбор:']) & set(df_2['Отбор:'])
    

    3.如果您的数据集如此之大,以至于清除数据帧仍然无济于事(这将节省大量内存)并且您仍然会溢出,那么您所要做的就是将所有数据分割成切片(以简单的情况下,只有一个数据帧,在复杂的情况下 - 两者)并在循环中进行分段比较。

    但如果您只需要全名列表,而不是全名+官方信息,所有这些提示都是相关的。

    • 2
  2. CrazyElf
    2024-01-15T17:00:05Z2024-01-15T17:00:05Z
    1. 仅使用您感兴趣的数据列;您可能会将数据框与许多其他列合并,但现阶段您不需要这些列本身。收到所需的全名列表后,您可以使用它从数据框中选择必要的行。
    2. 该栏中不仅有您的全名,还有一些官方记录。尝试通过关键字过滤掉不必要的条目,只留下您的全名。
    3. 通过 从列中获取唯一值的列表.unique()。然后,正如您在评论中已经建议的那样,您可以从此列表中创建一个集合,并根据您的任务,对这些集合进行相交、添加、减去...

    如果您按照正确的顺序执行所有操作,所有这些都将使您节省大量内存。

    更具体地说,对于代码,如果您提供可重现的数据示例,我或其他人都可以回答,即 您可以运行并获取与您的结构相似的数据帧的数据文件或代码。

    • 1

相关问题

  • 是否可以以某种方式自定义 QTabWidget?

  • telebot.anihelper.ApiException 错误

  • Python。检查一个数字是否是 3 的幂。输出 无

  • 解析多个响应

  • 交换两个数组的元素,以便它们的新内容也反转

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5