介绍
这篇文章将为大家详细讲解有关python如何去重函数,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
数据去重可以使用复制()和drop_duplicates()两个方法。
DataFrame。复制(=没有子集,保持='第一次')返回布尔系列表示重复行
参数:
子集:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
保持:{“第一”,“去年”,假},默认“第一”
第一:标记重复,真正的除了第一次出现。
:标记重复,真正的除了最后一次出现。
错误:将所有重复项标记为真的。
进口numpy np 熊猫作为pd导入 从熊猫进口系列,DataFrame df=pd.read_csv (& # 39;。/demo_duplicate.csv& # 39;) 打印(df) 打印(df [& # 39; Seqno& # 39;] .unique ()) # [0。1。) #使用重复查看重复值 #参数保持可以标记重复值{& # 39;第一个# 39;& # 39;这# 39;,假} 打印(df [& # 39; Seqno& # 39;] .duplicated ()) & # 39;& # 39;& # 39; 0错误 1真正的 2真 3真正的 4错误 名称:Seqno dtype: bool & # 39;& # 39;& # 39; #删除系列重复数据 打印(df [& # 39; Seqno& # 39;] .drop_duplicates ()) & # 39;& # 39;& # 39; 0 0.0 4 1.0 名称:Seqno dtype: float64 & # 39;& # 39;& # 39; #删除dataframe重复数据 print (df.drop_duplicates ([& # 39; Seqno& # 39;])) #按照Seqno来去重 & # 39;& # 39;& # 39; 价格Seqno象征时间 0 1623.0 - 0.0:1473411962 4 1649.0 - 1.0:1473411963 & # 39;& # 39;& # 39; # drop_dujplicates()第二个参数保持包含的值有:第一,最后,假的 print (df.drop_duplicates ([& # 39; Seqno& # 39;],保持=& # 39;这# 39;))#保存最后一个 & # 39;& # 39;& # 39; 价格Seqno象征时间 3 1623.0 - 0.0:1473411963 4 1649.0 - 1.0:1473411963 & # 39;& # 39;& # 39;
关于python如何去重函数就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看的到。