同事们,美好的一天。有 2 个 2 个月的数据框有用户数据,您需要比较这 2 个数据框并找到 2 个月内重复的用户。目前,我只留下了所需的列,并且似乎创建了一个包含该值(重复或不重复)的新列。链接到源数据
m = (october.merge(november, how='outer', on=['Структурная единица'],
suffixes=['', '_new'], indicator=True))
结构单元 | _合并 |
---|---|
0 客户 | 两个都 |
1 TsSO 特维尔 | 两个都 |
2 1760 | 仅左 |
3 1760 | 仅左 |
4 6251 | 仅左 |
... | ... |
23984 | 瓦列里·奥列戈维奇 亚什克维奇 |
23985 | 亚什克维奇维罗妮卡 |
23986 | 尼古拉·亚什克维奇 |
23987 | 亚绍夫·扎哈尔·杰尼索维奇 |
23988 | 亚绍娃·纳迪亚·穆斯哈托芙娜 right_only |
23989 行 × 2 列
如果您需要出现在第一帧和第二帧中的唯一全名列表,请像这样:
指示符在这里是多余的;使用参数 就足够了
how='inner'
。然后删除重复项。如果我正确理解您需要在两个数据帧中查找用户的匹配项以及该用户的重复总数,那么使用
.isin()
and 的函数将执行以下操作value_counts()
:结论: