我有类似这个数据集的东西,只有几十万行:
data = [{'name': 'name1', 'launch_id': 5},\
{'name': 'name2', 'launch_id': 6},\
{'name': 'name2', 'launch_id': 7},\
{'name': 'name3', 'launch_id': 8}]
df = pd.DataFrame(data)
将会:
| launch_id | name
---------------------
0 5 name1
1 6 name2
2 7 name2
3 8 name3
我想从中选择一些launch_id从另一个大型 DataFrame 获得的行。我用名字launch_id保存了必要的:np.arraysimple
simple = np.array([5, 8])
现在我想得到以下结果:
| launch_id | name
---------------------
0 5 name1
3 8 name3
如果我写一个 SQL 查询,我会写一些where launch_id in simple.
如何在 Pandas 中获得类似的结果?
或者
Pandas 与 SQL 的比较...
PS Apache Spark SQL 支持 ANSI SQL,因此允许您直接编写 SQL 查询。