Python数据分析之熊猫知识点有哪些 - 行业资讯 - 肥雀云

　　介绍

这篇文章主要介绍了Python数据分析之熊猫知识点有哪些,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获、下面让小编带着大家一起了解一下。

<强> 1。重复值的处理

利用drop_duplicates()函数删除数据表中重复多余的记录,比如删除重复多余的ID。

, import  pandas  as  pd=,,df  pd.DataFrame ({“ID": [“A1000",“A1001",“A1002",,“A1002"],
　　,,,,,,,,“departmentId":, (60001, 60001,, 60001, 60001]})
　　之前,df.drop_duplicates ()    
  <强> 2。缺失值的处理 
 缺失值是数据中因缺少信息而造成的数据聚类,分组,截断等
  <强> 2.1缺失值产生的原因 
 主要原因可以分为两种:人为原因和机械原因。
  1)人为原因:由于人的主观失误造成数据的缺失,比如数据录入人员的疏漏;
  2)机械原因:由于机械故障导致的数据收集或者数据保存失败从而造成数据的缺失。
  <强> 2.2缺失值的处理方式 
 缺失值的处理方式通常有三种:补齐缺失值,删除缺失值,删除缺失值,保留缺失值。
  1)补齐缺失值:使用计算出来的值去填充缺失值,例如样本平均值。
 使用fillna()函数对缺失值进行填充,使用的意思是()函数计算样本平均值。
  import  pandas  as  pd
　　import  numpy  as  np
　　df =, pd.DataFrame ({& # 39; id # 39;: [& # 39; A10001& # 39;,, & # 39; A10002& # 39;,, & # 39; A10003& # 39;,, & # 39; A10004& # 39;),,
　　,,,,,,,,,“Salary": [np.NaN, 11560, 12988, 12080]})
　　#用薪水字段的样本均值填充缺失值
　　df (“Salary"),=, df (“Salary") .fillna (df (“Salary") .mean ())
　　df 
   
  2)删除缺失值:当数据量大时且缺失值占比较小可选用删除缺失值的记录。
 示例:删除entrytime中缺失的值,采用dropna函数对缺失值进行删除:
 , import  pandas  as  pd
　　时间=df  pd.DataFrame ({“ID": [“A1000",“A1001",“A1002"],
　　,,,,,,,,“entrytime":, (“2015 - 05 - 06 -“, pd.NaT,“2016 - 07 - 01 -“,]})
　　df.dropna ()

3)保留缺失值。

<强> 3。删除前后空格

使用带()函数删除前后空格。

, import  pandas  as  pd=,,df  pd.DataFrame ({“ID": [“A1000",“A1001",“A1002"],
　　,,,,,,,,“Surname":, (“, Zhao “,“Qian",“, Sun “,]})
　　(“Surname"), df,=, df (“Surname") .str.strip ()
　　以前,df    
  <强> 4。查看数据类型 
 查看所有列的数据类型使用dtypes,查看单列使用dtype,具体用法如下:
  import  pandas  as  pd
　　时间=df  pd.DataFrame ({“ID": (100000、100101、100201),“Surname":, (“, Zhao “,“Qian",“, Sun “,]})
　　#查看所有列的数据类型
　　df.dtypes
　　#查看单列的数据类型
　　df (“ID")。dtype

<强> 5。修改数据类型

使用astype()函数对数据类型进行修改,用法如下

import pandas as pd 　　时间=df pd.DataFrame ({“ID": (100000、100101、100201),“Surname":, (“, Zhao “,“Qian",“, Sun “,]}) 　　#将ID列的类型转化为字符串的格式　　df (“ID") .astype (str)

Python数据分析之熊猫知识点有哪些

<强> 6。字段的抽取

使用切片(开始、结束)函数可完成字段的抽取,注意是开始从0开始且不包含结束。比如抽取前两位片(0,2)。

import pandas as pd 　　时间=df pd.DataFrame ({“ID": (100000、100101、100201),“Surname":, (“, Zhao “,“Qian",“, Sun “,]}) 　　#需要将ID列的类型转换为字符串,,否则无法使用切片()函数　　(“ID"), df=, df (“ID") .astype (str) 　　#抽取身份证前两位　　df (“ID") .str.slice (0, 2)