学好爬虫技术能做到哪些很酷很有趣很有用的事情?

  

一个熟悉爬虫技术的人的独白!

  

不得不说,Python爬虫对于我来说真是个神之器。前在分析-些经济数据的时候,需要从网上抓取一些数据下来,想了很多方法,一开始是通过Excel,但是Excel只能爬下表格,局限性太大了,之后问了学编程的朋友,他说JavaScrip也能实现,于是懵懵董董地就去学Java(我那朋友是Java的学,我当时问他用Java能不能实现,他说JavaScript好像可以,当时我什么都不懂,就把JavaScript理解成是Java下的一个分支,以为JavaScript只是艾娃其中——个包什么的,于是我便去学了一小会Java,无知惹的祸啊…)。

  

但整个Java体系也太庞大了,学起来力不从心,毕竟我只是要运用其中一部分功能而已,于是学没多久我就放弃了。就在我迷茫的时候,我发现了Python .....
学好爬虫技术能做到哪些很酷很有趣很有用的事情?

  

废话说多了,说说自己的学习经历吧。也给想学Python,想写爬虫的人一个参考。

  

一开始我是在网上自己找了个基础的视频来学,Python真是门简单的语言,之前懂一点Visual Basic,感觉Python也很适合给无编程基础的人学习。

  

入门视频到最后,就做出了我的第一个爬虫一百度贴吧图片爬虫(相信很多的教程都是以百度贴吧爬虫为经典例子来说的)。

  

一开始代码很简单,只能爬取第一页的数据,于是我加了一一个循环,就能够爬取制定页数的图片了。并且图片是有按顺序排列的,非常方便。在筛选网址的时候用正则表达式就好了。

  

可是我不经常混贴吧啊,也很少有要下载贴吧图片的需求。回归初衷吧。我对投资有兴趣,学编程有一个原因也是为了投资服务。在7月股灾进行时的时候,我错过了一个明显的“捡钱”的机会,并非自身专业知识不够,而是当时在准备考试,很少去看股市,这让我心有不甘:要是有个东西能够帮我自动爬取数据分析并推送就好了,于是有了以下学习轨迹:

  

<强>一、爬取数据

  

在此顺便提一下,可以到公众号菜单栏的学习福利里面逛逛。里面有些教程还是挺不错的。两个可以替代Python里urlib和再保险正则表达式的库,它们分别叫做请求和Ixml。

  

第一个库挺不错的,现在在获取网页源代码时,我都用这个库,大家如果有不懂的可以看看那个网站。第二个库由于我是用3.4版本的Python,折腾了很久没折腾进去,于是我发现了另一个不错的库BeautifulSoup,详细教程参考:Python爬虫入门八之Beautiful Soup的用法

  

有了请求和Beautifulsoup,基本上可以实现我想要的很多功能了。我便做了一一个抓取分级基金数据的爬虫:

  

<强>二,分析并推送

  

其实在此分析其实还谈不上,顶多算是筛选。(不过我相信随着我数学能力提升会能有进一步的分析的,美好的祝愿…)筛选很简单,就是涨幅或收益率等等满足一定条件就保留下来,保留下来干嘛?推送啊!!

!   

将保存下来的数据通过邮件发送到自己的邮箱,手机上下载个软件,一切就大功告成了!

  

至此当时学习Python的目的就达到了,当时激动地要炸了!!

!   

不过....那么好玩的东西,怎么能这么快就结束了?再折腾吧!

  

<强>三,简单的界面

  

等等!Python好像不能直接弄成exe可执行文件,不能每次运行都开Python的窗口啊!强迫症怎么能忍!1上网搜搜发现有诸如py2exe的包可以转换,可是老子是3.4版本啊!折腾半天没搞的定,算了!我不是会点VB吗,用那个吧。于是连界面都有了

学好爬虫技术能做到哪些很酷很有趣很有用的事情?