Python中熊猫的用法案例 - 行业资讯 - 肥雀云

　　介绍

这篇文章给大家分享的是有关Python中熊猫的用法案例的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。

<强>一、生成数据表

1,首先导入大熊猫库,一般都会用到numpy库,所以我们先导入备用:

进口numpy np 　　熊猫作为pd导入

2,导入CSV或者xlsx文件:

df=pd.DataFrame (pd.read_csv (& # 39; name.csv& # 39;,头=1)) 　　df=pd.DataFrame (pd.read_excel (& # 39; name.xlsx& # 39;))

3,用熊猫创建数据表:

df=pd.DataFrame ({“id": [1001、1002、1003、1004、1005、1006], 　　“date": pd.date_range(& # 39; 20130102 & # 39;时间=6), 　　“city":[& # 39;北京& # 39;& # 39;sh # 39;, & # 39;广州& # 39;& # 39;深圳# 39;& # 39;上海# 39;,& # 39;北京& # 39;], 　　“age":[23日,44岁,54岁,32岁,34岁,32), 　　“category":[& # 39; 100 -一个# 39;,& # 39;100 - b # 39;, & # 39; 110 -一个# 39;,& # 39;110 - c # 39;, & # 39; 210 -一个# 39;,& # 39;130 - f # 39;], 　　“price":(np.nan np.nan 1200, 2133, 5433, 4432]}, 　　列=[& # 39;id # 39; & # 39;日期# 39;,& # 39;城市# 39;,& # 39;类别# 39;,& # 39;年龄# 39;,& # 39;价格# 39;])

<强>二、数据表信息查看

1,维度查看:

df。形状

2,数据表基本信息(维度,列名称,数据格式,所占空间等):

df.info ()

3,每一列数据的格式:

df。dtypes

4,某一列格式:

df (& # 39; b # 39;]。dtype

5,空值:

df.isnull ()

6,查看某一列空值:

df.isnull ()

7日查看某一列的唯一值:

df (& # 39; b # 39;] .unique ()

8日查看数据表的值:

df。值

9日查看列名称:

df。列

10,查看前十行数据,后10行数据:

df.head() #默认前十行数据　　df.tail() #默认后10行数据

<强>三,数据表清洗

1,用数字0填充空值:

df.fillna (value=https://www.yisu.com/zixun/0)

2,使用列的王子均值对NA进行填充:

df(& # 39;王子# 39;].fillna (df(& # 39;王子# 39;].mean ())

3,清楚市字段的字符空格:

df(& # 39;城市# 39;]=df(& # 39;城市# 39;]. map (str.strip)

4,大小写转换:

df(& # 39;城市# 39;]=df(& # 39;城市# 39;].str.lower ()

5,更改数据格式:

df(& # 39;价格# 39;].astype (& # 39; int # 39;)

6,更改列名称:

df.rename(列={& # 39;类别# 39;:& # 39;category-size& # 39;})

7,删除后出现的重复值:

df(& # 39;城市# 39;].drop_duplicates ()

8,删除先出现的重复值:

df(& # 39;城市# 39;].drop_duplicates(保持=& # 39;这# 39;)

9数据替换:

df(& # 39;城市# 39;].replace (& # 39; sh # 39; & # 39;上海# 39;)

<强>四,数据预处理

df1=pd.DataFrame ({“id": (1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008]。　　“gender":[& # 39;男性# 39;& # 39;女# 39;,& # 39;男性# 39;,& # 39;女# 39;,& # 39;男性# 39;,& # 39;女# 39;,& # 39;男性# 39;,& # 39;女# 39;], 　　“pay": [& # 39; y # 39; & # 39; n # 39;, & # 39; y # 39;, & # 39; y # 39;, & # 39; n # 39;, & # 39; y # 39;, & # 39; n # 39;, & # 39; y # 39;,), 　　“m-point":(10、12、20、40、40岁,40岁,30岁,20]})

1,数据表合并

df_inner=pd.merge (df, df1=& # 39;内部# 39;)#匹配合并,交集　　df_left=pd.merge (df, df1=& # 39;左# 39;)# 　　df_right=pd.merge (df, df1=& # 39;对# 39;) 　　df_outer=pd.merge (df, df1=& # 39;外# 39;)#并集

2,设置索引列

df_inner.set_index (& # 39; id # 39;)

3,按照特定列的值排序:

df_inner.sort_values(=[& # 39;年龄# 39;])

4,按照索引列排序:

df_inner.sort_index ()

5,如果王子列的值在3000年,集团列显示,否则显示低:

df_inner[& # 39;组# 39;]=np.where (df_inner[& # 39;价格# 39;]比;3000年& # 39;高# 39;& # 39;低# 39;)