Python数据分析|熊猫汇总和计算描述统计 - 行业资讯 - 肥雀云

　　介绍

这期内容当中小编将会给大家带来有关Python数据分析|熊猫汇总和计算描述统计,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

<强> 1。聚合计算

熊猫对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计,用于从系列中提取单个值(如金额或意味着)或从DataFrame的行或列中提取一个系列。跟对应的NumPy数组方法相比,它们都是基于没有缺失数据的假设而构建的。看一个简单的DataFrame:

df =, pd.DataFrame ([[1.4, np.nan], [7.1, -4.5], 　　,,,(np.nan np.nan也),[0.75,-1.3]], 　　,,,指数=[& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; c # 39;,, & # 39; d # 39;], 　　,,,列=[& # 39;一个# 39;,,& # 39;两个# 39;]) 　　df

Python数据分析|熊猫汇总和计算描述统计

调用DataFrame的总和方法将会返回一个含有列的和的系列:

df.sum(),, #默认轴=0/& # 39;指数# 39;

Python数据分析|熊猫汇总和计算描述统计

传入轴=& # 39;列# 39;或轴=1将会按行进行求和运算:

df.sum(轴=& # 39;列# 39;),#轴=1

Python数据分析|熊猫汇总和计算描述统计

NA值会自动被排除,除非整个切片(这里指的是行或列)都是NA。通过skipna选项可以禁用该功能:

打印(df) 　　打印(“——产生绯闻) 　　print (df.mean(轴=& # 39;列# 39;,,skipna=False)), #轴=1 　　打印(“——产生绯闻) 　　print (df.mean(轴=& # 39;列# 39;)),#轴=1,自动跳过na

Python数据分析|熊猫汇总和计算描述统计

下表列出了这些约简方法的常用选项:

Python数据分析|熊猫汇总和计算描述统计

有些方法(如idxmin和idxmax)返回的是间接统计(比如达到最小值或最大值的索引):

打印(df) 　　打印(“- - - - - -产生绯闻) 　　df.idxmax(), #轴=0

Python数据分析|熊猫汇总和计算描述统计

另一些方法则是累计型的:

打印(df) 　　打印(“- - - - - -产生绯闻) 　　df.cumsum(), #轴=0

Python数据分析|熊猫汇总和计算描述统计

还有一种方法,它既不是约简型也不是累计型.describe就是一个例子,它用于一次性产生多个汇总统计:

df.describe(), #默认忽略空值

Python数据分析|熊猫汇总和计算描述统计

对于非数值型数据,描述会产生另外一种汇总统计:

obj =, pd.Series((& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; c # 39;], *, 4) 　　obj.describe ()

Python数据分析|熊猫汇总和计算描述统计

下表列出了所有与描述统计相关的方法。

Python数据分析|熊猫汇总和计算描述统计

<强> 2。相关系数与协方差

有些汇总统计(如相关系数和协方差)是通过参数对计算出来的。我们来看几个DataFrame,它们的数据来自雅虎金融的股票价格和成交量,使用的是pandas-datareader包(可以用conda或pip安装):

pip install pandas-datareader

我使用pandas_datareader模块下载了一些股票数据:

import pandas_datareader.data as web 　　all_data =,{股票:web.get_data_yahoo(股票),for ticker 拷贝(& # 39;apple # 39;,, & # 39; ibm # 39;,, & # 39;微软# 39;,,& # 39;google # 39;]} 　　, 　　时间=price pd.DataFrame({股票:数据(& # 39;Adj 关闭# 39;],for 股票,,data 拷贝all_data.items ()}), 　　volume =, pd.DataFrame({股票:数据(& # 39;卷# 39;],for 股票,,data 拷贝all_data.items ()}) 　　print (price.head ()) 　　print (volume.head ())