python之熊猫用法大全 - 行业资讯 - 肥雀云_南京肥雀信息技术有限公司

一、生成数据表

1,首先导入大熊猫库,一般都会用到numpy库,所以我们先导入备用:

　　　　　　进口numpy np 　　熊猫作为pd 之前导入　　　　

2,导入CSV或者xlsx文件:

　　　　　　df=pd.DataFrame (pd.read_csv (name.csv,头=1) 　　df=pd.DataFrame (pd.read_excel (name.xlsx)) 　　　　

3,用熊猫创建数据表:

　　　　　　df=pd.DataFrame ({" id ": [1001、1002、1003、1004、1005、1006], 　　“日期”:pd。date_range(' 20130102 ',时间=6), 　　“城市”(“北京”、“上海”,“广州”,“深圳”、“上海”,“北京”), 　　“年龄”:[23日,44岁,54岁,32岁,34岁,32), 　　“类别”(“100”,“100 - b”,“110”,“110 - c”,“210”,“130 - f '), 　　“价格”:[np.nan np.nan 1200, 2133, 5433, 4432]}, 　　列=[“id”,“日期”、“城市”、“类别”,“年龄”、“价格”)) 　　　　

二、数据表信息查看

1,维度查看:

　　　　　　df.shape 　　　　

2,数据表基本信息(维度,列名称,数据格式,所占空间等):

　　　　　　df.info () 　　　　

3,每一列数据的格式:

　　　　　　df.dtypes 　　　　

4,某一列格式:

　　　　　　df [B] .dtype 　　　　

5,空值:

　　　　　　df.isnull () 　　　　

6,查看某一列空值:

　　　　　　df.isnull () 　　　　

7日查看某一列的唯一值:

　　　　　　df [B] .unique () 　　　　

8日查看数据表的值:
　　

　　　　　　df。值　　　　

9日查看列名称:

　　　　　　df.columns 　　　　

10,查看前十行数据,后10行数据:

　　　　　　df.head() #默认前十行数据　　df.tail() #默认后10行数据　　　　

三,数据表清洗

1,用数字0填充空值:

　　　　　　df.fillna (value=https://www.yisu.com/zixun/0) 　　　　

2,使用列的王子均值对NA进行填充:

　　　　　　df(“王子”).fillna (df(“王子”).mean ()) 　　　　

3,清楚市字段的字符空格:

　　　　　　df(城市的)=df(“城市”). map (str.strip) 　　　　

4,大小写转换:

　　　　　　df(城市的)=df(“城市”).str.lower () 　　　　

5,更改数据格式:

　　　　　　df[价格].astype (int) 　　　　

6,更改列名称:

　　　　　　df。重命名(列={“类别”:“category-size”}) 　　　　

7,删除后出现的重复值:

　　　　　　df(“城市”).drop_duplicates () 　　　　

8,删除先出现的重复值:

　　　　　　df(“城市”).drop_duplicates(保持='最后') 　　　　

9数据替换:

　　　　　　df(“城市”)。替换(“上海”、“上海”) 　　　　

四,数据预处理

　　　　　　df1=pd.DataFrame ({" id ": [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008]。　　“性别”:['男','女','男','女','男','女','男','女'], 　　“支付”:[' Y ', ' N ', ' Y ', ' Y ', ' N ', ' Y ', ' N ', ' Y ',), 　　“点”:(10、12、20、40、40岁,40岁,30岁,20]}) 　　　　

1,数据表合并

　　　　　　df_inner=pd.merge (df, df1=澳谠凇?#匹配合并,交集　　df_left=pd.merge (df, df1='左')# 　　df_right=pd.merge (df, df1=罢返摹? 　　df_outer=pd.merge (df, df1=巴狻?#并集　　　　

2,设置索引列

　　　　　　df_inner.set_index (id) 　　　　

3,按照特定列的值排序:

　　　　　　df_inner.sort_values(=[‘年龄’]) 　　　　

4,按照索引列排序:

　　　　　　df_inner.sort_index () 　　　　

5,如果王子列的值在3000年,集团列显示,否则显示低:

　　　　　　df_inner(“集团”)=np。在哪里(df_inner[价格]比;3000年,“高”、“低”)