这期内容当中小编将会给大家带来有关高偏振星库如何在python中使用,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
python可以做什么
python是一种编程语言,内置了许多有效的工具,python几乎无所不能,该语言通俗易懂,容易入门,功能强大,在许多领域中都有广泛的应用,例如最热门的大数据分析,人工智能,网页开发等。
高偏振星是通过锈编写的一个库,高偏振星的内存模型是基于Apache箭头。
高偏振星存在两种API,一种是热切的API,另一种则是懒惰的API。
其中急切的API和熊猫的使用类似,语法差不太多,立即执行就能产生结果。
#,安装高偏振星 pip install  polars 小姐;https://mirror.baidu.com/pypi/simple/
安装成功后,开始测试,比较熊猫和高偏振星处理数据的情况。
使用某网站注册用户的用户名数据进行分析,包含约2600多万个用户名的CSV文件。
文件已上传公众号,获取方式见文末。
import pandas as pd 时间=df pd.read_csv (& # 39; users.csv& # 39;) 打印(df)
数据情况如下。
import pandas as pd 时间=df pd.read_csv (& # 39; fake_user.csv& # 39;) 打印(df)
得到结果如下。
import 时间 import pandas  as pd 时间=start timeit.default_timer () 时间=df pd.read_csv (& # 39; users.csv& # 39;) df.sort_values (& # 39; n # 39;,,提升=False) 时间=stop timeit.default_timer () 打印(& # 39;时间:,& # 39;,,stop 作用;开始) ------------------------- 时间:,,
27.555776743218303可以看到使用熊猫对数据进行排序,花费了大约28 s。
import 时间 import polars  as pl 时间=start timeit.default_timer () 时间=df pl.read_csv (& # 39; users.csv& # 39;) df.sort (by_column=& # 39; n # 39;,,反向=True) 时间=stop timeit.default_timer () 打印(& # 39;时间:,& # 39;,,stop 作用;开始) ----------------------- 时间:,,
9.924110282212496高偏振星只花费了约10年代,这意味着高偏振星比熊猫快了2.7倍。
下面,我们来试试数据整合的效果,纵向连接。
import 时间 import pandas  as pd 时间=start timeit.default_timer () 时间=df_users pd.read_csv (& # 39; users.csv& # 39;) 时间=df_fake pd.read_csv (& # 39; fake_user.csv& # 39;) df_users.append (df_fake, ignore_index=True) 时间=stop timeit.default_timer () 打印(& # 39;时间:,& # 39;,,stop 作用;开始) ------------------------ 时间:,,15.556222308427095
使用熊猫耗时15 s。
import 时间 import polars  as pl 时间=start timeit.default_timer () 时间=df_users pl.read_csv (& # 39; users.csv& # 39;) 时间=df_fake pl.read_csv (& # 39; fake_user.csv& # 39;) df_users.vstack (df_fake) 时间=stop timeit.default_timer () 打印(& # 39;时间:,& # 39;,,stop 作用;开始) ----------------------- 时间:,,
3.475433263927698高偏振星居然最使用了约3.5秒,这里高偏振星比熊猫快了4.5倍。
通过上面的比较,高偏振星在处理速度上表现得相当不错。
可以是大家在未来处理数据时,另一种选择~
当然,熊猫目前历时12年,已经形成了很成熟的生态,支持很多其它的数据分析库。