介绍
这篇文章将为大家详细讲解有关怎么在熊猫中标记删除的重复记录,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
熊猫提供了复制,Index.duplicated, drop_duplicates函数来标记及删除重复记录
复制函数用于标记系列中的值,DataFrame中的记录行是否是重复,重复为真,不重复为假
pandas.DataFrame。复制(=没有自我,子集,保持=& # 39;第一个# 39;)
pandas.Series。复制(自我,保持=& # 39;第一个# 39;)
<强>其中参数解释如下:强>
子集:用于识别重复的列标签或列标签序列,默认所有列标签
='保持第一# 39;:除了第一次出现外,其余相同的被标记为重复
保持=& # 39;这# 39;:除了最后一次出现外,其余相同的被标记为重复
=False:所有相同的都被标记为重复
import numpy as np import pandas  as pd #标记DataFrame重复例子 df =, pd.DataFrame ({& # 39; col1 # 39;:,(& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;3 # 39;,,& # 39;4 # 39;],,& # 39;col2 # 39;:, (1,, 2,, 1,, 2,, 1, 1, 1), ,大敌;& # 39;col3 # 39;: [& # 39; aa # 39; & # 39; bb # 39;, & # 39; cc # 39;, & # 39; dd # 39;, & # 39; ee # 39;, & # 39; ff # 39;, & # 39; gg # 39;]},指数=[& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; c # 39;,, & # 39; b # 39;,, & # 39;一个# 39;,& # 39;c # 39;]) #复制(=没有自我,,子集,保持=& # 39;第一个# 39;) #根据列名标记 #=& # 39;第一个# 39; df.duplicated() #默认所有列,无重复记录 df.duplicated (& # 39; col1 # 39;) #第二,四,五行被标记为重复 df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;]) #第五行被标记为重复 #=& # 39;这# 39; df.duplicated (& # 39; col1 # 39;, & # 39;这# 39;)#第一,三,四行被标记重复 df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;],保持=& # 39;这# 39;)#第三行被标记为重复 #保持=False df.duplicated (& # 39; col1 # 39;, False) #系列((真的,真的,真的,真的,真的,假的,假的),指数=[& # 39;一个# 39;& # 39;一个# 39;,& # 39;b # 39;, & # 39; c # 39;, & # 39; b # 39;, & # 39;一个# 39;,& # 39;c # 39;]) df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;],保持=False) #在col1和col2列上出现相同的,都被标记为重复 类型(df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;],保持=False)) # pandas.core.series.Series #根据索引标记 df.index.duplicated() #默认保持=& # 39;第一个# 39;,第二,五,七行被标记为重复 df.index.duplicated(保持=& # 39;这# 39;)#第一,二,三,四被标记为重复 df (df.index.duplicated()] #获取重复记录行 df (~ df.index.duplicated(& # 39;这# 39;)]#获取不重复记录行 #标记系列重复例子 #复制(自我,保持=& # 39;第一个# 39;) s =, pd.Series([& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;3 # 39;,,& # 39;4 # 39;],,指数=,(& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; c # 39;,, & # 39; b # 39;,, & # 39;一个# 39;,& # 39;c # 39;], name=& # 39; sname # 39;) s.duplicated () s.duplicated(& # 39;这# 39;) s.duplicated(假) #根据索引标记 s.index.duplicated () s.index.duplicated(& # 39;这# 39;) s.index.duplicated (False)
drop_duplicates函数用于删除系列,DataFrame中重复记录,并返回删除重复后的结果
pandas.DataFrame。drop_duplicates(=没有自我,子集,保持=& # 39;第一个# 39;,原地=False)
pandas.Series。drop_duplicates(自我,保持=& # 39;第一个# 39;,原地=False)
#删除DataFrame重复记录例子, # drop_duplicates(=没有自我,,子集,保持=& # 39;第一个# 39;,,原地=False), df.drop_duplicates (), df.drop_duplicates (& # 39; col1 # 39;) #删除了df.duplicated (& # 39; col1 # 39;)标记的重复记录, df.drop_duplicates (& # 39; col1 # 39;, & # 39;这# 39;)#删除了df.duplicated (& # 39; col1 # 39; & # 39;这# 39;)标记的重复记录, df1.drop_duplicates ([& # 39; col1 # 39; & # 39; col2 # 39;]) #删除了df.duplicated ((& # 39; col1 # 39; & # 39; col2 # 39;])标记的重复记录, df.drop_duplicates (& # 39; col1 # 39;,保持=& # 39;这# 39;,原地=True) #原地=True表示在原DataFrame上执行删除操作, df.drop_duplicates (& # 39; col1 # 39;,保持=& # 39;这# 39;,原地=False) #原地=False返回一个副本, #删除系列重复记录例子, # drop_duplicates(自我,保持=& # 39;第一个# 39;,,原地=False), s.drop_duplicates ()怎么在熊猫中标记删除的重复记录