高偏振星库如何在python中使用

  介绍

这期内容当中小编将会给大家带来有关高偏振星库如何在python中使用,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

python可以做什么

python是一种编程语言,内置了许多有效的工具,python几乎无所不能,该语言通俗易懂,容易入门,功能强大,在许多领域中都有广泛的应用,例如最热门的大数据分析,人工智能,网页开发等。

高偏振星是通过锈编写的一个库,高偏振星的内存模型是基于Apache箭头。

高偏振星存在两种API,一种是热切的API,另一种则是懒惰的API。

其中急切的API和熊猫的使用类似,语法差不太多,立即执行就能产生结果。

高偏振星库如何在python中使用“> </p> <p>而懒惰的API就像火花,首先将查询转换为逻辑计划,然后对计划进行重组优化,以减少执行时间和内存使用。</p> <p>安装高偏振星,使用百度脉冲源。</p> <pre类= #,安装高偏振星   pip  install  polars 小姐;https://mirror.baidu.com/pypi/simple/

安装成功后,开始测试,比较熊猫和高偏振星处理数据的情况。

使用某网站注册用户的用户名数据进行分析,包含约2600多万个用户名的CSV文件。

文件已上传公众号,获取方式见文末。

import  pandas  as  pd      时间=df  pd.read_csv (& # 39; users.csv& # 39;)   打印(df)

数据情况如下。

高偏振星库如何在python中使用“> </p> <p>此外还使用了一个自己创建的CSV文件,用以数据整合测试。</p> <pre类= import  pandas  as  pd      时间=df  pd.read_csv (& # 39; fake_user.csv& # 39;)   打印(df)

得到结果如下。

高偏振星库如何在python中使用“> </p> <p>首先比较一下两个库的排序算法耗时。</p> <pre类= import 时间   import  pandas  as  pd      时间=start  timeit.default_timer ()      时间=df  pd.read_csv (& # 39; users.csv& # 39;)   df.sort_values (& # 39; n # 39;,,提升=False)   时间=stop  timeit.default_timer ()      打印(& # 39;时间:,& # 39;,,stop 作用;开始)      -------------------------   时间:,,

27.555776743218303可以看到使用熊猫对数据进行排序,花费了大约28 s。

import 时间   import  polars  as  pl      时间=start  timeit.default_timer ()      时间=df  pl.read_csv (& # 39; users.csv& # 39;)   df.sort (by_column=& # 39; n # 39;,,反向=True)   时间=stop  timeit.default_timer ()      打印(& # 39;时间:,& # 39;,,stop 作用;开始)      -----------------------   时间:,,

9.924110282212496高偏振星只花费了约10年代,这意味着高偏振星比熊猫快了2.7倍。

下面,我们来试试数据整合的效果,纵向连接。

import 时间   import  pandas  as  pd      时间=start  timeit.default_timer ()      时间=df_users  pd.read_csv (& # 39; users.csv& # 39;)   时间=df_fake  pd.read_csv (& # 39; fake_user.csv& # 39;)   df_users.append (df_fake, ignore_index=True)   时间=stop  timeit.default_timer ()      打印(& # 39;时间:,& # 39;,,stop 作用;开始)      ------------------------   时间:,,15.556222308427095

使用熊猫耗时15 s。

import 时间   import  polars  as  pl      时间=start  timeit.default_timer ()      时间=df_users  pl.read_csv (& # 39; users.csv& # 39;)   时间=df_fake  pl.read_csv (& # 39; fake_user.csv& # 39;)   df_users.vstack (df_fake)   时间=stop  timeit.default_timer ()      打印(& # 39;时间:,& # 39;,,stop 作用;开始)      -----------------------   时间:,,

3.475433263927698高偏振星居然最使用了约3.5秒,这里高偏振星比熊猫快了4.5倍。

通过上面的比较,高偏振星在处理速度上表现得相当不错。

可以是大家在未来处理数据时,另一种选择~

当然,熊猫目前历时12年,已经形成了很成熟的生态,支持很多其它的数据分析库。

高偏振星库如何在python中使用