高偏振星库如何在python中使用 - 行业资讯 - 肥雀云

　　介绍

这期内容当中小编将会给大家带来有关高偏振星库如何在python中使用,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

python可以做什么

python是一种编程语言,内置了许多有效的工具,python几乎无所不能,该语言通俗易懂,容易入门,功能强大,在许多领域中都有广泛的应用,例如最热门的大数据分析,人工智能,网页开发等。

高偏振星是通过锈编写的一个库,高偏振星的内存模型是基于Apache箭头。

高偏振星存在两种API,一种是热切的API,另一种则是懒惰的API。

其中急切的API和熊猫的使用类似,语法差不太多,立即执行就能产生结果。

高偏振星库如何在python中使用“> 而懒惰的API就像火花,首先将查询转换为逻辑计划,然后对计划进行重组优化,以减少执行时间和内存使用。 安装高偏振星,使用百度脉冲源。 <pre类= #,安装高偏振星　　pip install polars 小姐;https://mirror.baidu.com/pypi/simple/

安装成功后,开始测试,比较熊猫和高偏振星处理数据的情况。

使用某网站注册用户的用户名数据进行分析,包含约2600多万个用户名的CSV文件。

文件已上传公众号,获取方式见文末。

import pandas as pd 　　　　时间=df pd.read_csv (& # 39; users.csv& # 39;) 　　打印(df)

数据情况如下。

高偏振星库如何在python中使用“> 此外还使用了一个自己创建的CSV文件,用以数据整合测试。 <pre类= import pandas as pd 　　　　时间=df pd.read_csv (& # 39; fake_user.csv& # 39;) 　　打印(df)

得到结果如下。

高偏振星库如何在python中使用“> 首先比较一下两个库的排序算法耗时。 <pre类= import 时间　　import pandas as pd 　　　　时间=start timeit.default_timer () 　　　　时间=df pd.read_csv (& # 39; users.csv& # 39;) 　　df.sort_values (& # 39; n # 39;,,提升=False) 　　时间=stop timeit.default_timer () 　　　　打印(& # 39;时间:,& # 39;,,stop 作用;开始) 　　　　------------------------- 　　时间:,,

27.555776743218303可以看到使用熊猫对数据进行排序,花费了大约28 s。

import 时间　　import polars as pl 　　　　时间=start timeit.default_timer () 　　　　时间=df pl.read_csv (& # 39; users.csv& # 39;) 　　df.sort (by_column=& # 39; n # 39;,,反向=True) 　　时间=stop timeit.default_timer () 　　　　打印(& # 39;时间:,& # 39;,,stop 作用;开始) 　　　　----------------------- 　　时间:,,

9.924110282212496高偏振星只花费了约10年代,这意味着高偏振星比熊猫快了2.7倍。

下面,我们来试试数据整合的效果,纵向连接。

import 时间　　import pandas as pd 　　　　时间=start timeit.default_timer () 　　　　时间=df_users pd.read_csv (& # 39; users.csv& # 39;) 　　时间=df_fake pd.read_csv (& # 39; fake_user.csv& # 39;) 　　df_users.append (df_fake, ignore_index=True) 　　时间=stop timeit.default_timer () 　　　　打印(& # 39;时间:,& # 39;,,stop 作用;开始) 　　　　------------------------ 　　时间:,,15.556222308427095

使用熊猫耗时15 s。

import 时间　　import polars as pl 　　　　时间=start timeit.default_timer () 　　　　时间=df_users pl.read_csv (& # 39; users.csv& # 39;) 　　时间=df_fake pl.read_csv (& # 39; fake_user.csv& # 39;) 　　df_users.vstack (df_fake) 　　时间=stop timeit.default_timer () 　　　　打印(& # 39;时间:,& # 39;,,stop 作用;开始) 　　　　----------------------- 　　时间:,,

3.475433263927698高偏振星居然最使用了约3.5秒,这里高偏振星比熊猫快了4.5倍。

通过上面的比较,高偏振星在处理速度上表现得相当不错。

可以是大家在未来处理数据时,另一种选择~

当然,熊猫目前历时12年,已经形成了很成熟的生态,支持很多其它的数据分析库。