爬虫技术详解

  

本文全面的介绍了爬虫的原理,技术现状,以及目前仍面临的问题。如果你没接触过爬虫,本文很适合你,如果你是一名资深的虫师,那么文末的彩蛋你可能感兴趣。
  

  

<强>一。需求

  

万维网上有着无数的网页,包含着海量的信息,无孔不入,森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣,有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼,不可能去每一个网页去点去看,然后再复制粘贴,所以我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序,这就是爬虫。
  

  

<强>二。原理

  

传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新URL的放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析,过滤,并建立索引,以便之后的查询和检索,所以一个完整的爬虫一般会包含如下三个模块:,,,

  

  

  

  

<强>三。网络请求

  

我们常说爬虫其实就是一堆的http (s)请求,找到待爬取的链接,然后发送一个请求包,得到一个返回包,当然,也有http长连接(点火电极)或编辑中基于流的websocket协议,这里暂不考虑,所以核心的几个要素就是:

  

  

  

  

<强>四。URL

  

爬虫开始运行时需要一个初始url,然后会根据爬取到的html文章,解析里面的链接,然后继续爬取,这就像一棵多叉树,从根节点开始,每走一步,就会产生新的节点。为了使爬虫能够结束,一般都会指定一个爬取深度(深度)。

  

<强>五。Http请求

  

http请求信息由请求方法(方法),请求头(header),请求正文(身体)三部分组成。由于方法一般是头中的第一行,也可以说请求头中包含请求方法、下面是chrome访问请求头的一部分:

     /HTTP/1.1   连接:维生   主持人:gsw.iguoxue.org   用户代理:Mozilla/5.0(麦金塔电脑;Intel Mac OS X 10 _11_6) AppleWebKit/537.36 (KHTML,像壁虎)Chrome/55.0.2883.95 Safari 537.36   接受编码:gzip、缩小、sdch br      

本文不会解释各个字段的意思,详细的解释请移步w3c Http报头字段定义。对于爬虫需要注意的是请求方法是发布时,需要将请求的参数先进行urlencode后再发送,后台收到请求信息后可能会做一些校验,这可能会影响到爬取,相关的头字段如下:

  

  

这是一种古老的,不安全的用户验证方式,一般会有用户授权的限制,会在头的Autheration字段里要求加入用户名密码(明文),如果验证失败则请求就会失败,现在这种认证方式正在被淘汰。

  

  

链接的来源,通常在访问链接时,都要带上推荐人字段,服务器会进行来源验证,后台通常会用此字段作为防盗链的依据。

  

  

后台通常会通过此字段判断用户设备类型,系统以及浏览器的型号版本。有些编程语言包里网络请求会自定义,可以被辨别出来,爬虫中可以设置为浏览器的ua。

  

  

一般在用户登录或者某些操作后,服务端会在返回包中包含饼干信息要求浏览器设置饼干,没有饼干会很容易被辨别出来是伪造请求;

  

也有本地通过JS,根据服务端返回的某个信息进行处理生成的加密信息,设置在饼干里面;

  

  

在进行敏感数据传输时,一般都会通过javascript进行加密,例如qq空间就会对用户登陆密码进行RSA加密后再发送给服务器,因此,爬虫在模拟登陆时需要自己去请求公钥,然后加密。

  

  

因为http的头可以自定义地段,所以第三方可能会加入了一些自定义的字段名称或者字段值,这也是需要注意的。

  

<强>六。流程控制

  

所谓爬取流程,就是按照什么样的规则顺序去爬。在爬取任务不大的情况下,爬取的流程控制不会太麻烦,很多爬取框架都已经帮你做了如scrapy,只需要自己实现解析的代码。但在爬取一些大型网站时,例如全网抓取京东的评论,微博所有人的信息,关注关系等等,这种上十亿到百亿次设置千亿次的请求必须考虑效率,否则一天只有86400秒,那么一秒钟要抓100次,一天也才8640 w次请求,也需要100多天才能到达十亿级别的请求量。涉及到大规模的抓取,一定要有良好的爬虫设计,一般很多开源的爬虫框架也都是有限制的,因为中间涉及到很多其他的问题,例如数据结构,重复抓取过滤的问题,当然最重要的是要把带宽利用满,所以分布式抓取很重要,这时流程控制就会很重要,分布式最重要的就是多台机器不同线程的调度和配合,通常会共享一个url队列,然后各个线程通过消息通信,如果想要抓的越多越快,那么对中间的消息系统的吞吐量要求也越高。现在也有一些开源的分布式爬取框架如scrapy-redis就是一个重写了scrapy的调度模块,队列,管道的包,复述,数据库是用来在分布式中做请求队列共享,scrapyd是用来部署scrapy的,scrapyd-api用来启动获取数据。

爬虫技术详解