熊猫中的数据去重处理的实现方法 - 行业资讯 - 肥雀云

数据去重可以使用复制()和drop_duplicates()两个方法。
　　

DataFrame。复制(=没有子集,保持='第一次')返回布尔系列表示重复行
　　

参数:
　　子集:列标签或标签序列,可选
　　仅考虑用于标识重复项的某些列,默认情况下使用所有列
　　保持:{“第一”,“去年”,假},默认“第一”

　　<李>第一:标记重复,真正的除了第一次出现。　　<李>:标记重复,真正的除了最后一次出现。　　<李>错误:将所有重复项标记为真的。　　　　　　　　进口numpy np 　　熊猫作为pd导入　　从熊猫进口系列,DataFrame 　　　　df=pd.read_csv (“/demo_duplicate.csv。”) 　　打印(df) 　　打印(df [' Seqno '] .unique ()) # [0。1。) 　　　　#使用重复查看重复值　　#参数保持可以标记重复值{“第一”,“去年”,假} 　　打印(df [' Seqno '] .duplicated ()) 　　“‘ 　　0错误　　1真正的　　2真　　3真正的　　4错误　　名称:Seqno dtype: bool 　　“‘ 　　　　#删除系列重复数据　　打印(df [' Seqno '] .drop_duplicates ()) 　　“‘ 　　0 0.0 　　4 1.0 　　名称:Seqno dtype: float64 　　“‘ 　　　　#删除dataframe重复数据　　print (df.drop_duplicates ([' Seqno '])) #按照Seqno来去重　　“‘ 　　价格Seqno象征时间　　0 1623.0 - 0.0:1473411962 　　4 1649.0 - 1.0:1473411963 　　“‘ 　　# drop_dujplicates()第二个参数保持包含的值有:第一,最后,假的　　打印(df。drop_duplicates ([' Seqno '],保持='最后'))#保存最后一个　　“‘ 　　价格Seqno象征时间　　3 1623.0 - 0.0:1473411963 　　4 1649.0 - 1.0:1473411963 　　“‘ 　　之前　　　　

<强>熊猫去除重复行

　　　　　　DataFrame。drop_duplicates(=没有子集,保持=谝淮巍?原地=False) 　　　　时间:

subset 指定列,默认情况下使用所有列

keep :{“第一”、“去年”,假},默认“第一”

<代码>第一次> ,<代码>:删除重复项保留最后一次出现的.false:删除所有重复项。

　　时间:

inplace 布尔值,默认为False ,,,,是否删除重复项或返回副本

栗子: 　　

熊猫中的数据去重处理的实现方法