熊猫之drop_duplicates:去除重复项
方法
DataFrame。drop_duplicates(=没有子集,保持=谝淮巍?原地=False)
参数
这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。
-
<李>子集:列标签或标签序列,可选用来指定特定的列,默认所有列李>
<李>保持:{“第一”,“去年”,假},默认的第一个“删除重复项并保留第一次出现的项李>
<李>原地:布尔,默认错误是直接在原来数据上修改还是保留一个副本李>
DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:
data.drop_duplicates(子集=[A, B],保持=谝淮巍?原地=True)
代码中子集对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为子集=没有表示考虑所有列。
保持='第一次'表示保留第一次出现的重复行,是默认值抬起另外两个取值为“最后”和假的,分别表示保留最后一次出现的重复行和去除所有重复行。
原地=True表示直接在原来的DataFrame上删除重复项,而默认值假表示生成一个副本。
将副本赋值给dataframe:
data=https://www.yisu.com/zixun/data.drop_duplicates(=没有子集,保持=谝淮巍?原地=False) >之前这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:
数据(“额外”)=test_data [' item_price_level ']就会报如下错误:
SettingWithCopyWarning:试图设置一个值的副本一片从DataFrame只
引用>所以如果想对DataFrame去重,最好采用开头提到的那行代码。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
详解熊猫使用drop_duplicates去除DataFrame重复项参数