golang如何高效处理大文件

  介绍

这篇文章主要介绍了golang如何高效处理大文件,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获、下面让小编带着大家一起了解一下。

使用熊猫分块处理大文件

问题:今天在处理快手的用户数据时,遇到了一个差不多600的txt文本,用崇高的打开都蹦了,我用pandas.read_table()去读,差不多花了近2分钟,最后打开发现差不多3千万行数据。这仅仅是打开,如果要处理不知得多费劲。

解决:我翻了一下文档,这一类读取文件的函数有两个参数:<强> chunksize ,<强>迭代器

原理就是不一次性把文件数据读入内存中,而是分多次。

1,指定chunksize分块读取文件

read_csv和read_table有一个chunksize参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的TextFileReader对象。

表=pd.read_table(路径+ & # 39;kuaishou.txt& # 39;, 9=& # 39; t # 39;, chunksize=1000000)   for  df 拷贝表:   ,,,对df处理   ,,,#如df.drop(列=[& # 39;页面# 39;& # 39;video_id& # 39;],轴=1,原地=True)   ,,,#打印(类型(df)、df.shape)打印看一下信息

我这里又对文件进行了划分,分成若干个子文件分别处理(没错,to_csv也同样有chunksize参数)

2,指定迭代器=True

迭代器=True同样返回的是TextFileReader对象

reader =, pd.read_table (& # 39; tmp.sv& # 39;,, 9=& # 39; t # 39;,,迭代器=True)   df=reader.get_chunk (10000)   #通过get_chunk(大小),返回一个行大小的块   #接着同样可以对df处理

直接看看熊猫文档在这一方面的内容吧。

golang适合做什么

golang可以做服务器端开发,但golang很适合做日志处理,数据打包,虚拟机处理,数据库代理等工作。在网络编程方面,它还广泛应用于网络应用,API应用等领域。

感谢你能够认真阅读完这篇文章,希望小编分享的“golang如何高效处理大文件”这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!

golang如何高效处理大文件