介绍
这期内容当中小编将会给大家带来有关Python数据分析|熊猫汇总和计算描述统计,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
<强> 1。聚合计算强>
熊猫对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计,用于从系列中提取单个值(如金额或意味着)或从DataFrame的行或列中提取一个系列。跟对应的NumPy数组方法相比,它们都是基于没有缺失数据的假设而构建的。看一个简单的DataFrame:
df =, pd.DataFrame ([[1.4, np.nan], [7.1, -4.5], ,,,(np.nan np.nan也),[0.75,-1.3]], ,,,指数=[& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; c # 39;,, & # 39; d # 39;], ,,,列=[& # 39;一个# 39;,,& # 39;两个# 39;]) df
调用DataFrame的总和方法将会返回一个含有列的和的系列:
df.sum(),, #默认轴=0/& # 39;指数# 39;
传入轴=& # 39;列# 39;或轴=1将会按行进行求和运算:
df.sum(轴=& # 39;列# 39;),#轴=1
NA值会自动被排除,除非整个切片(这里指的是行或列)都是NA。通过skipna选项可以禁用该功能:
打印(df) 打印(“——产生绯闻) print (df.mean(轴=& # 39;列# 39;,,skipna=False)), #轴=1 打印(“——产生绯闻) print (df.mean(轴=& # 39;列# 39;)),#轴=1,自动跳过na
下表列出了这些约简方法的常用选项:
有些方法(如idxmin和idxmax)返回的是间接统计(比如达到最小值或最大值的索引):
打印(df) 打印(“- - - - - -产生绯闻) df.idxmax(), #轴=0
另一些方法则是累计型的:
打印(df) 打印(“- - - - - -产生绯闻) df.cumsum(), #轴=0
还有一种方法,它既不是约简型也不是累计型.describe就是一个例子,它用于一次性产生多个汇总统计:
df.describe(), #默认忽略空值
对于非数值型数据,描述会产生另外一种汇总统计:
obj =, pd.Series((& # 39;一个# 39;,,& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; c # 39;], *, 4) obj.describe ()
下表列出了所有与描述统计相关的方法。
<强> 2。相关系数与协方差强>
有些汇总统计(如相关系数和协方差)是通过参数对计算出来的。我们来看几个DataFrame,它们的数据来自雅虎金融的股票价格和成交量,使用的是pandas-datareader包(可以用conda或pip安装):
pip install pandas-datareader
我使用pandas_datareader模块下载了一些股票数据:
import pandas_datareader.data as web all_data =,{股票:web.get_data_yahoo(股票),for ticker 拷贝(& # 39;apple # 39;,, & # 39; ibm # 39;,, & # 39;微软# 39;,,& # 39;google # 39;]} , 时间=price pd.DataFrame({股票:数据(& # 39;Adj 关闭# 39;],for 股票,,data 拷贝all_data.items ()}), volume =, pd.DataFrame({股票:数据(& # 39;卷# 39;],for 股票,,data 拷贝all_data.items ()}) print (price.head ()) print (volume.head ())Python数据分析|熊猫汇总和计算描述统计