python熊猫学习笔记 - 行业资讯 - 肥雀云_南京肥雀信息技术有限公司

熊猫使用一个二维的数据结构DataFrame来表示表格式的数据
DataFrame有四个重要的属性:
指数:行索引。
列:列索引。
价值观:值的二维数组。
名称:名字
data=https://www.yisu.com/zixun/pd.DataFrame(矩形、列=[u”姓名”,你“业绩"])
DataFrame方法函数的第一个参数是数据源,第二个参数的列是输出数据表的表头,或者说是表格的字段名
DataFrame(序列),通过序列构建,序列中的每个元素是一个字典
data.groupby ([u的业绩']).sum()以业务为分组统计某一列的总大小和():就是计数sum():分组求和
导出数据csvdata.to_csv (u" D: \ \学习脚本\ Result.csv",指数=True,头=[u的雇员”,你的销售业绩”),编码=皍tf_8_sig")
解决保存csv文件后,中文乱码问题.encoding=皍tf_8_sig"
=data.sort_values排序([u"业绩“),提升=False)以某列进行排序,然后取前几的值Sorted.head (3)
pd.read_csv (1024. f: \ csv)读取csv文件
打印df.head()读取前几行数据,默认5
打印df。dtypes读物数据类型
打印df.describe(包括='所有')读取统计信息
打印df。列打印出列的信息
打印df。指数打印出行的索引信息
打印df。T行列互置
打印df。第九(:0).head第九()(行、列)读取指定的行列数据,头()默认读取前5行
df.drop (df。列[[1,2]],轴=1).head()删除指定的列
金砖四国=pd.read_excel (/usr/test.xlsx)处理xlsx文件
打印金砖四国。loc [Br的]#读取行用函数.loc,但显示是以列显示的
#显示“溴”这行的“语言”的值有下面几种方法:
1。一起选择
打印bric.loc(“品牌”,“语言”)
2。取列再取行
打印“金砖四国”(“语言”).loc [br的]
3。取行再取列
打印bric.loc [br的][‘语言’]
4。值就直接['列名']
打印“金砖四国”(“语言”)
插入列:直接“金砖四国”(“要插入的列的名]=[要插入的列表数据]ric [“aa”]=[“123”、“乐”、“123”,“毫米”]
#插入行:bric.loc['非洲的']=[25日,20岁的“英语”,“aa”]
数据清洗
loandata=https://www.yisu.com/zixun/pd.DataFrame (pd.read_excel (loandata.xlsx))
1。数据表中的重复值
loandata.duplicated()判断重复值
loandata.drop_duplicates()删除重复值
2。数据表中的空值/缺失值
loandata.isnull()空值loandata[”列名”].isnull () .value_counts() #统计某个列的非空值数量
loandata.notnull()非空值
空值有两种处理的方法,第一种是使用fillna函数对空值进行填充,可以选择填充0值或者其他任意值。第二种方法是使用dropna函数直接将包含空值的数据删除
loandata.fillna(0)填充空值
loandata.dropna()删除空值
3。数据间的空格
loandata(“期限”)=loandata(“期限”). map (str.strip)利用带进行清查数据间的空格
loandata(“期限”)=loandata(“期限”). map (str.upper)大写
loandata(“期限”)=loandata(“期限”). map (str.lower)小写
loandata(“期限”)=loandata(“期限”). map (str.title)首字母大写
loandata [' emp_length ']。应用(λx: x isalnum())判断是否是数字
loandata [' emp_length ']。应用(λx: x isdigit ())
loandata [' emp_length ']。应用(λx: x.isalpha ())
4更改数据格式
loandata [' loan_amnt ']=loandata [' loan_amnt '] .astype (np.int64)
6。数据分组
垃圾箱=[0、5、10、15、20]
group_name=[A, B, C, D的]
loandata(“类别”)=pd。削减(loandata [' open_acc '],垃圾箱,标签=group_name)
对某一列的值进行等级分类
7。数据分列
grade_split=pd.DataFrame ((x.split (“-”) x loandata.grade),指数=loandata.index列=[‘品位’,‘sub_grade])指定分列的数据行所有保持不变
loandata=https://www.yisu.com/zixun/pd.merge (loandata、grade_split right_index=True, left_index=True)合并数据