python之熊猫用法大全

  

一、生成数据表

  

1,首先导入大熊猫库,一般都会用到numpy库,所以我们先导入备用:

        进口numpy np   熊猫作为pd 之前导入      

2,导入CSV或者xlsx文件:

        df=pd.DataFrame (pd.read_csv (name.csv,头=1)   df=pd.DataFrame (pd.read_excel (name.xlsx))      

3,用熊猫创建数据表:

        df=pd.DataFrame ({" id ": [1001、1002、1003、1004、1005、1006],   “日期”:pd。date_range(' 20130102 ',时间=6),   “城市”(“北京”、“上海”,“广州”,“深圳”、“上海”,“北京”),   “年龄”:[23日,44岁,54岁,32岁,34岁,32),   “类别”(“100”,“100 - b”,“110”,“110 - c”,“210”,“130 - f '),   “价格”:[np.nan np.nan 1200, 2133, 5433, 4432]},   列=[“id”,“日期”、“城市”、“类别”,“年龄”、“价格”))      

二、数据表信息查看

  

1,维度查看:

        df.shape      

2,数据表基本信息(维度,列名称,数据格式,所占空间等):

        df.info ()      

3,每一列数据的格式:

        df.dtypes      

4,某一列格式:

        df [B] .dtype      

5,空值:

        df.isnull ()      

6,查看某一列空值:

        df.isnull ()      

7日查看某一列的唯一值:

        df [B] .unique ()      

8日查看数据表的值:
  

        df。值      

9日查看列名称:

        df.columns      

10,查看前十行数据,后10行数据:

        df.head() #默认前十行数据   df.tail() #默认后10行数据      

三,数据表清洗

  

1,用数字0填充空值:

        df.fillna (value=https://www.yisu.com/zixun/0)      

2,使用列的王子均值对NA进行填充:

        df(“王子”).fillna (df(“王子”).mean ())      

3,清楚市字段的字符空格:

        df(城市的)=df(“城市”). map (str.strip)      

4,大小写转换:

        df(城市的)=df(“城市”).str.lower ()      

5,更改数据格式:

        df[价格].astype (int)      

6,更改列名称:

        df。重命名(列={“类别”:“category-size”})      

7,删除后出现的重复值:

        df(“城市”).drop_duplicates ()      

8,删除先出现的重复值:

        df(“城市”).drop_duplicates(保持='最后')      

9数据替换:

        df(“城市”)。替换(“上海”、“上海”)      

四,数据预处理

        df1=pd.DataFrame ({" id ": [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008]。   “性别”:['男','女','男','女','男','女','男','女'],   “支付”:[' Y ', ' N ', ' Y ', ' Y ', ' N ', ' Y ', ' N ', ' Y ',),   “点”:(10、12、20、40、40岁,40岁,30岁,20]})      

1,数据表合并

        df_inner=pd.merge (df, df1=澳谠凇?#匹配合并,交集   df_left=pd.merge (df, df1='左')#   df_right=pd.merge (df, df1=罢返摹?   df_outer=pd.merge (df, df1=巴狻?#并集      

2,设置索引列

        df_inner.set_index (id)      

3,按照特定列的值排序:

        df_inner.sort_values(=[‘年龄’])      

4,按照索引列排序:

        df_inner.sort_index ()      

5,如果王子列的值在3000年,集团列显示,否则显示低:

        df_inner(“集团”)=np。在哪里(df_inner[价格]比;3000年,“高”、“低”)      

python之熊猫用法大全