介绍
这篇文章给大家分享的是有关Python中熊猫的用法案例的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。
<强>一、生成数据表强>
1,首先导入大熊猫库,一般都会用到numpy库,所以我们先导入备用:
进口numpy np 熊猫作为pd导入
2,导入CSV或者xlsx文件:
df=pd.DataFrame (pd.read_csv (& # 39; name.csv& # 39;,头=1)) df=pd.DataFrame (pd.read_excel (& # 39; name.xlsx& # 39;))
3,用熊猫创建数据表:
df=pd.DataFrame ({“id": [1001、1002、1003、1004、1005、1006], “date": pd.date_range(& # 39; 20130102 & # 39;时间=6), “city":[& # 39;北京& # 39;& # 39;sh # 39;, & # 39;广州& # 39;& # 39;深圳# 39;& # 39;上海# 39;,& # 39;北京& # 39;], “age":[23日,44岁,54岁,32岁,34岁,32), “category":[& # 39; 100 -一个# 39;,& # 39;100 - b # 39;, & # 39; 110 -一个# 39;,& # 39;110 - c # 39;, & # 39; 210 -一个# 39;,& # 39;130 - f # 39;], “price":(np.nan np.nan 1200, 2133, 5433, 4432]}, 列=[& # 39;id # 39; & # 39;日期# 39;,& # 39;城市# 39;,& # 39;类别# 39;,& # 39;年龄# 39;,& # 39;价格# 39;])
<强>二、数据表信息查看强>
1,维度查看:
df。形状
2,数据表基本信息(维度,列名称,数据格式,所占空间等):
df.info ()
3,每一列数据的格式:
df。dtypes
4,某一列格式:
df (& # 39; b # 39;]。dtype
5,空值:
df.isnull ()
6,查看某一列空值:
df.isnull ()
7日查看某一列的唯一值:
df (& # 39; b # 39;] .unique ()
8日查看数据表的值:
df。值
9日查看列名称:
df。列
10,查看前十行数据,后10行数据:
df.head() #默认前十行数据 df.tail() #默认后10行数据
<强>三,数据表清洗强>
1,用数字0填充空值:
df.fillna (value=https://www.yisu.com/zixun/0)
2,使用列的王子均值对NA进行填充:
df(& # 39;王子# 39;].fillna (df(& # 39;王子# 39;].mean ())
3,清楚市字段的字符空格:
df(& # 39;城市# 39;]=df(& # 39;城市# 39;]. map (str.strip)
4,大小写转换:
df(& # 39;城市# 39;]=df(& # 39;城市# 39;].str.lower ()
5,更改数据格式:
df(& # 39;价格# 39;].astype (& # 39; int # 39;)
6,更改列名称:
df.rename(列={& # 39;类别# 39;:& # 39;category-size& # 39;})
7,删除后出现的重复值:
df(& # 39;城市# 39;].drop_duplicates ()
8,删除先出现的重复值:
df(& # 39;城市# 39;].drop_duplicates(保持=& # 39;这# 39;)
9数据替换:
df(& # 39;城市# 39;].replace (& # 39; sh # 39; & # 39;上海# 39;)
<强>四,数据预处理强>
df1=pd.DataFrame ({“id": (1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008]。 “gender":[& # 39;男性# 39;& # 39;女# 39;,& # 39;男性# 39;,& # 39;女# 39;,& # 39;男性# 39;,& # 39;女# 39;,& # 39;男性# 39;,& # 39;女# 39;], “pay": [& # 39; y # 39; & # 39; n # 39;, & # 39; y # 39;, & # 39; y # 39;, & # 39; n # 39;, & # 39; y # 39;, & # 39; n # 39;, & # 39; y # 39;,), “m-point":(10、12、20、40、40岁,40岁,30岁,20]})
1,数据表合并
df_inner=pd.merge (df, df1=& # 39;内部# 39;)#匹配合并,交集 df_left=pd.merge (df, df1=& # 39;左# 39;)# df_right=pd.merge (df, df1=& # 39;对# 39;) df_outer=pd.merge (df, df1=& # 39;外# 39;)#并集
2,设置索引列
df_inner.set_index (& # 39; id # 39;)
3,按照特定列的值排序:
df_inner.sort_values(=[& # 39;年龄# 39;])
4,按照索引列排序:
df_inner.sort_index ()
5,如果王子列的值在3000年,集团列显示,否则显示低:
df_inner[& # 39;组# 39;]=np.where (df_inner[& # 39;价格# 39;]比;3000年& # 39;高# 39;& # 39;低# 39;)Python中熊猫的用法案例