怎么在熊猫中标记删除的重复记录

  介绍

这篇文章将为大家详细讲解有关怎么在熊猫中标记删除的重复记录,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

熊猫提供了复制,Index.duplicated, drop_duplicates函数来标记及删除重复记录

复制函数用于标记系列中的值,DataFrame中的记录行是否是重复,重复为真,不重复为假

pandas.DataFrame。复制(=没有自我,子集,保持=& # 39;第一个# 39;)

pandas.Series。复制(自我,保持=& # 39;第一个# 39;)

<强>其中参数解释如下:

子集:用于识别重复的列标签或列标签序列,默认所有列标签

='保持第一# 39;:除了第一次出现外,其余相同的被标记为重复

保持=& # 39;这# 39;:除了最后一次出现外,其余相同的被标记为重复

=False:所有相同的都被标记为重复

import  numpy  as  np   import  pandas  as  pd    #标记DataFrame重复例子   df =, pd.DataFrame ({& # 39; col1 # 39;:,(& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;3 # 39;,,& # 39;4 # 39;],,& # 39;col2 # 39;:, (1,, 2,, 1,, 2,, 1, 1, 1),   ,大敌;& # 39;col3 # 39;: [& # 39; aa # 39; & # 39; bb # 39;, & # 39; cc # 39;, & # 39; dd # 39;, & # 39; ee # 39;, & # 39; ff # 39;, & # 39; gg # 39;]},指数=[& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; c # 39;,, & # 39; b # 39;,, & # 39;一个# 39;,& # 39;c # 39;])   #复制(=没有自我,,子集,保持=& # 39;第一个# 39;)   #根据列名标记   #=& # 39;第一个# 39;   df.duplicated() #默认所有列,无重复记录   df.duplicated (& # 39; col1 # 39;) #第二,四,五行被标记为重复   df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;]) #第五行被标记为重复   #=& # 39;这# 39;   df.duplicated (& # 39; col1 # 39;, & # 39;这# 39;)#第一,三,四行被标记重复   df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;],保持=& # 39;这# 39;)#第三行被标记为重复   #保持=False   df.duplicated (& # 39; col1 # 39;, False) #系列((真的,真的,真的,真的,真的,假的,假的),指数=[& # 39;一个# 39;& # 39;一个# 39;,& # 39;b # 39;, & # 39; c # 39;, & # 39; b # 39;, & # 39;一个# 39;,& # 39;c # 39;])   df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;],保持=False) #在col1和col2列上出现相同的,都被标记为重复   类型(df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;],保持=False)) # pandas.core.series.Series   #根据索引标记   df.index.duplicated() #默认保持=& # 39;第一个# 39;,第二,五,七行被标记为重复   df.index.duplicated(保持=& # 39;这# 39;)#第一,二,三,四被标记为重复   df (df.index.duplicated()] #获取重复记录行   df (~ df.index.duplicated(& # 39;这# 39;)]#获取不重复记录行   #标记系列重复例子   #复制(自我,保持=& # 39;第一个# 39;)   s =, pd.Series([& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;3 # 39;,,& # 39;4 # 39;],,指数=,(& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; c # 39;,, & # 39; b # 39;,, & # 39;一个# 39;,& # 39;c # 39;], name=& # 39; sname # 39;)   s.duplicated ()   s.duplicated(& # 39;这# 39;)   s.duplicated(假)   #根据索引标记   s.index.duplicated ()   s.index.duplicated(& # 39;这# 39;)   s.index.duplicated (False)

drop_duplicates函数用于删除系列,DataFrame中重复记录,并返回删除重复后的结果

pandas.DataFrame。drop_duplicates(=没有自我,子集,保持=& # 39;第一个# 39;,原地=False)

pandas.Series。drop_duplicates(自我,保持=& # 39;第一个# 39;,原地=False)

#删除DataFrame重复记录例子,   # drop_duplicates(=没有自我,,子集,保持=& # 39;第一个# 39;,,原地=False),   df.drop_duplicates (),   df.drop_duplicates (& # 39; col1 # 39;) #删除了df.duplicated (& # 39; col1 # 39;)标记的重复记录,   df.drop_duplicates (& # 39; col1 # 39;, & # 39;这# 39;)#删除了df.duplicated (& # 39; col1 # 39; & # 39;这# 39;)标记的重复记录,   df1.drop_duplicates ([& # 39; col1 # 39; & # 39; col2 # 39;]) #删除了df.duplicated ((& # 39; col1 # 39; & # 39; col2 # 39;])标记的重复记录,   df.drop_duplicates (& # 39; col1 # 39;,保持=& # 39;这# 39;,原地=True) #原地=True表示在原DataFrame上执行删除操作,   df.drop_duplicates (& # 39; col1 # 39;,保持=& # 39;这# 39;,原地=False) #原地=False返回一个副本,   #删除系列重复记录例子,   # drop_duplicates(自我,保持=& # 39;第一个# 39;,,原地=False),   s.drop_duplicates ()

怎么在熊猫中标记删除的重复记录