pandas groupby分组对象的组内排序解决方案-偶像资源网

问题：

根据数据某列进行分组，选择其中另一列大小top-K的的所在行数据

解析：

求解思路很清晰，即先用groupby对数据进行分组，然后再根据分组后的某一列进行排序，选择排序结果后的top-K结果

案例：

取一下dataframe中B列各对象中C值最高所在的行

df = pd.DataFrame({\"A\": [2, 3, 5, 4], \"B\": [\'a\', \'b\', \'b\', \'a\'], \"C\": [200801, 200902, 200704, 201003]})

Groupby的基本功能介绍

groupby以后返回DataFrameGroupBy对象，实际上还没有进行任何计算，只是一个暂时存储的容器，

[In]df.groupby(\'B\')
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>

对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象，无法可视化

[In]df.groupby(\'B\')[\'A\']   # 返回SeriesGroupBy对象
[Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630>

[In]df.groupby(\'B\')[\'A\',\'C\']   # 返回DataFrameGroupBy对象
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>

需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作，才能生成可视化的数据(下文仅以count和size函数为例展示，不涉及其它的操作)

[In] df.groupby(\'B\', as_index=False)[\'A\'].count()  # 组内数据统计
[Out] B A
 0 a 2
 1 b 2

[In] df.groupby(\'B\')[\'A\'].size().reset_index(name=\'Size\') # 组内数据统计，size和count的一个显著区别在于count不考虑Nan，size考虑Nan
[Out] B Size
 0  a 2
 1  b 2

解决方案一：

对DataFrameGroupBy对象，用apply函数进行某列的sort_values排序，再选出其中的最大值所在行

# 返回值是一个带有multiindex的dataframe数据，其中level=0为groupby的by列，而level=1为原index
[In] df.groupby(\'B\').apply(lambda x: x.sort_values(\'C\', ascending=False))
[Out] A B C
B  
a 3 4 a 201003
 0 2 a 200801
b 1 3 b 200902
 2 5 b 200704

# 通过设置group_keys参数对multiindex进行优化
[In] df.groupby(\'B\', group_keys=False).apply(lambda x: x.sort_values(\'C\', ascending=False))
[Out] A B  C
 3 4 a 201003
 0 2 a 200801
 1 3 b 200902
 2 5 b 200704

# 再次groupby，并调用内置的first()方法，取最大值
[In] df.groupby(\'B\', group_keys=False).apply(lambda x: x.sort_values(\'C\', ascending=False)).groupby(\'B\').first().reset_index()
[Out]  B A  C
 0 a 4 201003
 1 b 3 200902

解决方案二：

先对B进行整体的sort_values，在groupy取值

[In] df.sort_values(\'C\', ascending=False).groupby(\'B\').first().reset_index()
[Out]  B A  C
 0 a 4 201003
 1 b 3 200902

问题拓展：

以上仅解决了Top-1的问题，如果是Top-k呢？

答案：将first()函数变为head()函数

[In] df.sort_values(\'C\', ascending=False).groupby(\'B\').head(2)
[Out] A B C
 3 4 a 201003
 1 3 b 200902
 0 2 a 200801
 2 5 b 200704

总结：

1、方案二，即先排序再groupby取值更方便

2、pandas中API众多，在实际使用时要捋清各步骤返回值的类型以方便记忆和联想

补充：pandas分组groupby、agg，排序sort，连接concat、join

连接concat和join

横向连接

pd.concat([df6,df7],axis=1)
df6.join(df7)

# df6的表格在前面，如需df7的表格在前需要交换位置

注意点：

1、concat这个方法，既可以实现横向连接，也可以实现纵向连接，通过设置axis的值来控制，axis=1表示的是横向连接，如果多个连接的对象，放在列表中

2、join也可以实现

纵向连接

pd.concat([df8,df9],ignore_index=True)

注意点：

1、进行纵向合并的数据，需要用[]集合起来

2、ignore_index忽略原有的行索引，重新排列

3、drop_duplicates()删除重复数据

排序

#按照成绩排序
df10.sort_values(\'score\')
#默认升序，从小到大

df10.sort_values([\'score\',\'group\'],ascending=False,na_position=\'first\')
#sort各个属性

参数	描述
by	字符串或者列表，如果是单个排序字段，使用的是字符串，如果指定多个，需要使用列表
ascending	True的时候，是按照升序，默认是升序
na_position	表示的是空值的位置，\’last\’是默认的，\’first\’开始位置

分组

### groupby
df11.groupby(\'class\')
df11.groupby([\'class\',\'grade\'])

for cls,data in df11.groupby([\'class\',\'grade\']):
print(cls)
print(data)

注意点：

1、groupby 如果指定的是一个列，如果是多个列[]

2、groupby返回的是一个对象，所以不能直接访问，可以使用for

筛选出分组之后的列

如果筛选出一列数据[[列名]]，返回的是dataframe对象

如果筛选出多个列数据，直接使用[]和[[]]均可

总结[[列1，列2，。。。。]]

聚合函数 agg配合使用

dff.groupby(\'class\')[[\'math\']].agg([\'mean\',\'max\',\'min\',\'median\',\'std\'])

函数	描述
mean	均值
max	最大值
min	最小值
median	中位数
std	标准差
count	计数
skew	偏度
quantile	指定分位数

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

版权声明 1 本网站名称：偶像资源网
2 本站永久网址：https://www.ox520.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ593098775进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END