怎么在熊猫中标记删除的重复记录 - 行业资讯 - 肥雀云

　　介绍

这篇文章将为大家详细讲解有关怎么在熊猫中标记删除的重复记录,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

熊猫提供了复制,Index.duplicated, drop_duplicates函数来标记及删除重复记录

复制函数用于标记系列中的值,DataFrame中的记录行是否是重复,重复为真,不重复为假

pandas.DataFrame。复制(=没有自我,子集,保持=& # 39;第一个# 39;)

pandas.Series。复制(自我,保持=& # 39;第一个# 39;)

<强>其中参数解释如下:

子集:用于识别重复的列标签或列标签序列,默认所有列标签

='保持第一# 39;:除了第一次出现外,其余相同的被标记为重复

保持=& # 39;这# 39;:除了最后一次出现外,其余相同的被标记为重复

=False:所有相同的都被标记为重复

import numpy as np 　　import pandas as pd 　　#标记DataFrame重复例子　　df =, pd.DataFrame ({& # 39; col1 # 39;:,(& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;3 # 39;,,& # 39;4 # 39;],,& # 39;col2 # 39;:, (1,, 2,, 1,, 2,, 1, 1, 1), 　　,大敌;& # 39;col3 # 39;: [& # 39; aa # 39; & # 39; bb # 39;, & # 39; cc # 39;, & # 39; dd # 39;, & # 39; ee # 39;, & # 39; ff # 39;, & # 39; gg # 39;]},指数=[& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; c # 39;,, & # 39; b # 39;,, & # 39;一个# 39;,& # 39;c # 39;]) 　　#复制(=没有自我,,子集,保持=& # 39;第一个# 39;) 　　#根据列名标记　　#=& # 39;第一个# 39; 　　df.duplicated() #默认所有列,无重复记录　　df.duplicated (& # 39; col1 # 39;) #第二,四,五行被标记为重复　　df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;]) #第五行被标记为重复　　#=& # 39;这# 39; 　　df.duplicated (& # 39; col1 # 39;, & # 39;这# 39;)#第一,三,四行被标记重复　　df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;],保持=& # 39;这# 39;)#第三行被标记为重复　　#保持=False 　　df.duplicated (& # 39; col1 # 39;, False) #系列((真的,真的,真的,真的,真的,假的,假的),指数=[& # 39;一个# 39;& # 39;一个# 39;,& # 39;b # 39;, & # 39; c # 39;, & # 39; b # 39;, & # 39;一个# 39;,& # 39;c # 39;]) 　　df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;],保持=False) #在col1和col2列上出现相同的,都被标记为重复　　类型(df.duplicated ([& # 39; col1 # 39; & # 39; col2 # 39;],保持=False)) # pandas.core.series.Series 　　#根据索引标记　　df.index.duplicated() #默认保持=& # 39;第一个# 39;,第二,五,七行被标记为重复　　df.index.duplicated(保持=& # 39;这# 39;)#第一,二,三,四被标记为重复　　df (df.index.duplicated()] #获取重复记录行　　df (~ df.index.duplicated(& # 39;这# 39;)]#获取不重复记录行　　#标记系列重复例子　　#复制(自我,保持=& # 39;第一个# 39;) 　　s =, pd.Series([& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;两个# 39;,,& # 39;3 # 39;,,& # 39;4 # 39;],,指数=,(& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; c # 39;,, & # 39; b # 39;,, & # 39;一个# 39;,& # 39;c # 39;], name=& # 39; sname # 39;) 　　s.duplicated () 　　s.duplicated(& # 39;这# 39;) 　　s.duplicated(假) 　　#根据索引标记　　s.index.duplicated () 　　s.index.duplicated(& # 39;这# 39;) 　　s.index.duplicated (False)

drop_duplicates函数用于删除系列,DataFrame中重复记录,并返回删除重复后的结果

pandas.DataFrame。drop_duplicates(=没有自我,子集,保持=& # 39;第一个# 39;,原地=False)

pandas.Series。drop_duplicates(自我,保持=& # 39;第一个# 39;,原地=False)

#删除DataFrame重复记录例子, 　　# drop_duplicates(=没有自我,,子集,保持=& # 39;第一个# 39;,,原地=False), 　　df.drop_duplicates (), 　　df.drop_duplicates (& # 39; col1 # 39;) #删除了df.duplicated (& # 39; col1 # 39;)标记的重复记录, 　　df.drop_duplicates (& # 39; col1 # 39;, & # 39;这# 39;)#删除了df.duplicated (& # 39; col1 # 39; & # 39;这# 39;)标记的重复记录, 　　df1.drop_duplicates ([& # 39; col1 # 39; & # 39; col2 # 39;]) #删除了df.duplicated ((& # 39; col1 # 39; & # 39; col2 # 39;])标记的重复记录, 　　df.drop_duplicates (& # 39; col1 # 39;,保持=& # 39;这# 39;,原地=True) #原地=True表示在原DataFrame上执行删除操作, 　　df.drop_duplicates (& # 39; col1 # 39;,保持=& # 39;这# 39;,原地=False) #原地=False返回一个副本, 　　#删除系列重复记录例子, 　　# drop_duplicates(自我,保持=& # 39;第一个# 39;,,原地=False), 　　s.drop_duplicates ()