python数据分析:熊猫学习之系列数组 - 行业资讯 - 肥雀云

学习熊猫需要一些numpy学习基础:numpy学习总结

虽然numpy已经可以结合matplotlib解决我们数据分析的问题,那么熊猫学习的目的在什么地方呢?

numpy能够帮我们处理数值型数据,但是这还不够

很多时候,我们数据除了数值之外,还有字符串,时间序列等

比如:我们通过爬虫获取到了存储在数据库中的数据

所以,numpy能够帮助我们处理数值,但是熊猫处理处理数值之外(基于numpy),还能够帮助我们处理其他类型的数据

熊猫常用的数据类型

1。系列一维,带标签(索)引数组

2。DataFrame二维,系列容器

熊猫系列的学习

创建一个系列数组

熊猫作为pd导入

进口numpy np

#创建长度为10的系列数组

t=pd.Series (np.arange (10))

<中心>

这样就可以创建一个简单的系列数组了,数组的左边是它的索引,右边是它的值

,因此它有指数和价值观方法

<中心>

更改系列数组的索引值

其中指数=列表(string.ascii_uppercase[10])表示的是取前十位大写字母来代替索引

在这里插入代码片

注意:pd.Series能够干什么,能够传入什么类型的数据让其变系列为结构,指数是什么?

在什么位置,对于我们常见的数据库或者ndarray来说,指数是什么,如何给一组数据指定指数吗?

在pd.Series()中的参数可以传入一个字典,也能传入一个列,表元组等

重新给其指定其他的索引之后,如果能够对应上,就取其值,如果不能,就为南　　此时数据的类型就为浮动类型了,因为numpy中的南为浮动类型,熊猫会自动根据数据类型更改系列的dtype类型,若要修改此类型,使用。astype即可修改

熊猫之系列切片和索引

t=pd.Series (np.arange(10),指数=列表(string.ascii_uppercase [10]))

t[2:10:2] #从第三个开始以步长为2,到第十个为止

t[[2, 3, 6]] #选择第三个,第四个,和第七个的值

t [F] #选择索引为F的值

结果如下:

切片:在“[]”中直接传入开始或结束者步长即可

索引:一个的时候传入序号或者指数、多个的时候传入序号或者索引的列表

熊猫之系列的索引和值

对于一个陌生的系列类型,我们如何知道它的索引和具体的值呢:

t。指数==比;返回数组的索引,是一个列表类型,可以进行遍历,也可进行强制类型转换,如:tuple (t.index) # 　　进行强制类型转换

t。值==比;返回数组的值,是一个列表类型,可以进行遍历,也可进行强制类型转换,如:tuple (t.values)

系列对象本质上由两个数组构成。

一个数组构成对象的键(指数、索引),一个数组构成对象的值(值),键→值

ndarray的很多方法都可以运用于系列类型,比如argmax,剪辑

系列具有在方法,但是结果和ndarray不同,具体方法可以查看官方文档np.Series。在使用教程

熊猫读取mongodb数据

这里由于我的mongodb里面没有数据,所以我就手动添加了一些数据(0.0)

从pymongo进口MongoClient

熊猫作为pd导入

客户=MongoClient ()

=客户集合(“鑫”)(“测试”)

data=https://www.yisu.com/zixun/list (collection.find ())

=(“你好”、“世界”)

data.append (a)

t1=数据[0]

t1=pd.Series (t1)

打印(t1)

结果如下

<中心>

熊猫读取外部文件

熊猫提供了很多读取数据的方法,比如:

<中心>

这里我以csv文件举例

熊猫作为pd导入

#熊猫读取文件

t=pd.read_csv (“。/demo.csv”)

打印(t)

csv文件结果如下

<中心>

我们这组的数据存在csv文件中,我们直接使用pd。read_csv即可

和我们想象中的有些差别,我们以为他会是一个系列的类型,但实际上它是一个DataFrame数组类型。