详解熊猫使用drop_duplicates去除DataFrame重复项参数 - 行业资讯

熊猫之drop_duplicates:去除重复项
　　

方法
　　

　　　　　　DataFrame。drop_duplicates(=没有子集,保持=谝淮巍?原地=False) 　　　　

参数
　　

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

　　<李>子集:列标签或标签序列,可选用来指定特定的列,默认所有列李　　<李>保持:{“第一”,“去年”,假},默认的第一个“删除重复项并保留第一次出现的项李　　<李>原地:布尔,默认错误是直接在原来数据上修改还是保留一个副本李　　　　

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

　　　　　　data.drop_duplicates(子集=[A, B],保持=谝淮巍?原地=True) 　　　　

代码中子集对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为子集=没有表示考虑所有列。

保持='第一次'表示保留第一次出现的重复行,是默认值抬起另外两个取值为“最后”和假的,分别表示保留最后一次出现的重复行和去除所有重复行。

原地=True表示直接在原来的DataFrame上删除重复项,而默认值假表示生成一个副本。

将副本赋值给dataframe:

　　　　　　data=https://www.yisu.com/zixun/data.drop_duplicates(=没有子集,保持=谝淮巍?原地=False) 　　之前　　　　

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

　　　　　　数据(“额外”)=test_data [' item_price_level '] 　　　　

就会报如下错误:

　　
SettingWithCopyWarning:试图设置一个值的副本一片从DataFrame只
　　　　
所以如果想对DataFrame去重,最好采用开头提到的那行代码。
　　
　　
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
详解熊猫使用drop_duplicates去除DataFrame重复项参数