数据去重可以使用复制()和drop_duplicates()两个方法。
DataFrame。复制(=没有子集,保持='第一次')返回布尔系列表示重复行
参数:
子集:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
保持:{“第一”,“去年”,假},默认“第一”
-
<李>第一:标记重复,真正的除了第一次出现。李>
<李>:标记重复,真正的除了最后一次出现。李>
<李>错误:将所有重复项标记为真的。李>
进口numpy np 熊猫作为pd导入 从熊猫进口系列,DataFrame df=pd.read_csv (“/demo_duplicate.csv。”) 打印(df) 打印(df [' Seqno '] .unique ()) # [0。1。) #使用重复查看重复值 #参数保持可以标记重复值{“第一”,“去年”,假} 打印(df [' Seqno '] .duplicated ()) “‘ 0错误 1真正的 2真 3真正的 4错误 名称:Seqno dtype: bool “‘ #删除系列重复数据 打印(df [' Seqno '] .drop_duplicates ()) “‘ 0 0.0 4 1.0 名称:Seqno dtype: float64 “‘ #删除dataframe重复数据 print (df.drop_duplicates ([' Seqno '])) #按照Seqno来去重 “‘ 价格Seqno象征时间 0 1623.0 - 0.0:1473411962 4 1649.0 - 1.0:1473411963 “‘ # drop_dujplicates()第二个参数保持包含的值有:第一,最后,假的 打印(df。drop_duplicates ([' Seqno '],保持='最后'))#保存最后一个 “‘ 价格Seqno象征时间 3 1623.0 - 0.0:1473411963 4 1649.0 - 1.0:1473411963 “‘ >之前<强>熊猫去除重复行强>
DataFrame。drop_duplicates(=没有子集,保持=谝淮巍?原地=False)时间:subset 指定列,默认情况下使用所有列
keep :{“第一”、“去年”,假},默认“第一”
<代码>第一次> 代码,:删除重复项保留第一次出现的。去年代码>,<代码>:删除重复项保留最后一次出现的.false:删除所有重复项。
时间:inplace 布尔值,默认为False ,,,,是否删除重复项或返回副本
栗子:
到此这篇关于熊猫中的数据去重处理的实现方法的文章就介绍到这了,更多相关大熊猫数据去重内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
熊猫中的数据去重处理的实现方法