浅析Python数据处理

  

Numpy,熊猫是Python数据处理中经常用到的两个框架,都是采用C语言编写,所以运算速度快.Matplotlib是Python的的画图工具,可以把之前处理后的数据通过图像绘制出来。之前只是看过语法,没有系统学习总结过,本博文总结了这三个框架的API。

  

以下是这三个框架的的简单介绍和区别:

  
      <李> Numpy:经常用于数据生成和一些运算李   <李>熊猫:基于Numpy构建的,是Numpy的升级版本李   <李> Matplotlib: Python中强大的绘图工具
      李   
  

<强> Numpy

  

Numpy快速入门教程可参考:Numpy教程

  

<强> Numpy属性

  

ndarray。ndim:维度
  

  

ndarray。形状:行数和列数,例如(3、5)
  

  

ndarray。大小:元素的个数
  

  

ndarray.dtype:元素类型

  

<强> Numpy创建

  

阵列(对象,dtype=None):使用Python的列表或者元组创建数据
  

  

zeors(形状,dtype=浮动):创建全为0的数据
  

  

的(形状,dtype=None):创建全为1的数据
  

  

空(形状,dtype=浮动):创建没有初始化的数据
  

  

不等(启动,停止,[,]dtype=None):创建固定间隔的数据段
  

  

linspace(启动、停止、num=50, dtype=None):在给定的范围,均匀的创建数据

  

<强> Numpy运算

  

加、减:a + b, a - b
  

  

乘:b * 2, 10 * np.sin (a)
  

  

次方:b * * 2
  

  

判断:a<35岁的输出真或假的数组
  

  

矩阵乘:np.dot (A, B)或A.dot (B)
  

  

其他:+=,+,罪恶,因为,exp

  

<强> Numpy索引

  

数组索引方式:一个[1]
  

  

切片:[1,1:3]
  

  

迭代:项A.flat

  

<强> Numpy其他

  

重塑(newshape):改变数据形状,不会对原始数据进行修改,返回一组新数据
  

  

调整(new_shape):改变数据形状,会对原始数据进行修改,不返回数据
  

  

拉威尔(a):将成一维返回

  

vstack(锤头):上下合并
  

  

hstack(锤头):左右合并
  

  indices_or_sections

hsplit(必要):水平分割n份
  

  indices_or_sections

vsplit(必要):垂直分割n份

  

复制(a):深度拷贝

  

<强>熊猫

  

熊猫快速入门教程可参考:10分钟熊猫

  

<强>熊猫数据结构

  

熊猫的数据结构有两种:系列和DataFrame。

  

系列:索引在左边,值在右边。创建方式如下:

        在[4]:s=pd.Series ([1, 3, 5, np.nan 6 8])   在[5]:年代   [5]:   0 1.0   1 3.0   2 5.0   3南   4 6.0   5 8.0   dtype: float64      

DataFrame:是一个表格型的数据结构,既有行索引也有列索引,它可以被看做由系列组成的大字典。创建方式如下:

        在[6]:日期=pd。date_range(' 20130101 ',时间=6)      在[7]:日期   [7]:   DatetimeIndex ([“2013-01-01”,“2013-01-02”,“2013-01-03”,“2013-01-04”,   “2013-01-05”,“2013-01-06”),   dtype=' datetime64 (ns),频率=' D ')      在[8]:df=pd.DataFrame (np.random.randn(6, 4),指数=日期、列=列表(“ABCD”))      

<强>熊猫查看数据

  

指数:索引
  

  

列:列索引
  

  

价值观:值
  

  

头(n=5):返回前n项数据
  

  

尾巴(n=5):返回后n项数据
  

  

描述():打印出数据的数量,平均值等各项数据
  

  

sort_index(轴=1升=False):根据索引排序
  

  

sort_values (=B):根据索引值排序

  

<强>熊猫选择数据

  

数组选择方式:df [A]
  

  

切片选择方式:df(0:3)或df (“20130102”“20130104”):
  

  

根据标签选择:df。代码行(“20130102”:“20130104”,[A, B]]
  

  

根据位置选择:df。iloc [3:5, 0:2]
  

  

混合选择:df。第九(:3,[' A ', ' C ']]
  

  

条件判断选择:df (df。一个比;

0]   

<强>熊猫处理丢失数据

  

删除丢失数据的行:df.dropna(='任何')
  

  

填充丢失数据:df.fillna (value=https://www.yisu.com/zixun/5)

浅析Python数据处理