详解熊猫使用drop_duplicates去除DataFrame重复项参数

  

熊猫之drop_duplicates:去除重复项
  

  

方法
  

        DataFrame。drop_duplicates(=没有子集,保持=谝淮巍?原地=False)      

参数
  

  

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  
      <李>子集:列标签或标签序列,可选用来指定特定的列,默认所有列李   <李>保持:{“第一”,“去年”,假},默认的第一个“删除重复项并保留第一次出现的项李   <李>原地:布尔,默认错误是直接在原来数据上修改还是保留一个副本李   
  

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

        data.drop_duplicates(子集=[A, B],保持=谝淮巍?原地=True)      

代码中子集对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为子集=没有表示考虑所有列。

  

保持='第一次'表示保留第一次出现的重复行,是默认值抬起另外两个取值为“最后”和假的,分别表示保留最后一次出现的重复行和去除所有重复行。

  

原地=True表示直接在原来的DataFrame上删除重复项,而默认值假表示生成一个副本。

  

将副本赋值给dataframe:

        data=https://www.yisu.com/zixun/data.drop_duplicates(=没有子集,保持=谝淮巍?原地=False)   之前      

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

        数据(“额外”)=test_data [' item_price_level ']      

就会报如下错误:

  
  

SettingWithCopyWarning:试图设置一个值的副本一片从DataFrame只

     

所以如果想对DataFrame去重,最好采用开头提到的那行代码。
  

  

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。

详解熊猫使用drop_duplicates去除DataFrame重复项参数