Pandas去除重复项函数详解drop_duplicates()-偶像资源网

drop_duplicates函数用途

pandas中的drop_duplicates()函数

可以通过SQL中关键字distinct的用法来理解

根据指定的字段对数据集进行去重处理

drop_duplicates()函数的具体参数

用法：

DataFrame.drop_duplicates(subset=None, keep=‘first\', inplace=False)

参数说明：

参数	说明
subset	根据指定的列名进行去重，默认整个数据集
keep	可选{‘first’, ‘last’, False}，默认first，即默认保留第一次出现的重复值，并删去其他重复的数据，False是指删去所有重复数据。
inplace	是否对数据集本身进行修改，默认False

drop_duplicates用法举例

根据指定字段进行去重

保留第一次出现的数据

import pandas as pd
#创建数据框
df=pd.DataFrame({
    \'a\':[1,2,4,3,3,3,4],
    \'b\':[2,3,3,4,4,5,3]
})
print(\'去重前：\\n\',df)

#根据字段a进行去重，保留第一次出现的数据
df.drop_duplicates([\'a\'],keep=\'first\',inplace=True)
print(\'去重后：\\n\',df)

>>>
去重前：
    a  b
0  1  2
1  2  3
2  4  3
3  3  4
4  3  4
5  3  5
6  4  3
去重后：
    a  b
0  1  2
1  2  3
2  4  3
3  3  4

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。

版权声明 1 本网站名称：偶像资源网
2 本站永久网址：https://www.ox520.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ593098775进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END