一、生成数据表
1,首先导入大熊猫库,一般都会用到numpy库,所以我们先导入备用:
进口numpy np 熊猫作为pd >之前导入2,导入CSV或者xlsx文件:
df=pd.DataFrame (pd.read_csv (name.csv,头=1) df=pd.DataFrame (pd.read_excel (name.xlsx))3,用熊猫创建数据表:
df=pd.DataFrame ({" id ": [1001、1002、1003、1004、1005、1006], “日期”:pd。date_range(' 20130102 ',时间=6), “城市”(“北京”、“上海”,“广州”,“深圳”、“上海”,“北京”), “年龄”:[23日,44岁,54岁,32岁,34岁,32), “类别”(“100”,“100 - b”,“110”,“110 - c”,“210”,“130 - f '), “价格”:[np.nan np.nan 1200, 2133, 5433, 4432]}, 列=[“id”,“日期”、“城市”、“类别”,“年龄”、“价格”))二、数据表信息查看
1,维度查看:
df.shape2,数据表基本信息(维度,列名称,数据格式,所占空间等):
df.info ()3,每一列数据的格式:
df.dtypes4,某一列格式:
df [B] .dtype5,空值:
df.isnull ()6,查看某一列空值:
df.isnull ()7日查看某一列的唯一值:
df [B] .unique ()8日查看数据表的值:
df。值9日查看列名称:
df.columns10,查看前十行数据,后10行数据:
df.head() #默认前十行数据 df.tail() #默认后10行数据三,数据表清洗
1,用数字0填充空值:
df.fillna (value=https://www.yisu.com/zixun/0)2,使用列的王子均值对NA进行填充:
df(“王子”).fillna (df(“王子”).mean ())3,清楚市字段的字符空格:
df(城市的)=df(“城市”). map (str.strip)4,大小写转换:
df(城市的)=df(“城市”).str.lower ()5,更改数据格式:
df[价格].astype (int)6,更改列名称:
df。重命名(列={“类别”:“category-size”})7,删除后出现的重复值:
df(“城市”).drop_duplicates ()8,删除先出现的重复值:
df(“城市”).drop_duplicates(保持='最后')9数据替换:
df(“城市”)。替换(“上海”、“上海”)四,数据预处理
df1=pd.DataFrame ({" id ": [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008]。 “性别”:['男','女','男','女','男','女','男','女'], “支付”:[' Y ', ' N ', ' Y ', ' Y ', ' N ', ' Y ', ' N ', ' Y ',), “点”:(10、12、20、40、40岁,40岁,30岁,20]})1,数据表合并
df_inner=pd.merge (df, df1=澳谠凇?#匹配合并,交集 df_left=pd.merge (df, df1='左')# df_right=pd.merge (df, df1=罢返摹? df_outer=pd.merge (df, df1=巴狻?#并集2,设置索引列
df_inner.set_index (id)3,按照特定列的值排序:
df_inner.sort_values(=[‘年龄’])4,按照索引列排序:
df_inner.sort_index ()5,如果王子列的值在3000年,集团列显示,否则显示低:
df_inner(“集团”)=np。在哪里(df_inner[价格]比;3000年,“高”、“低”)python之熊猫用法大全