带你入门Python爬虫,8个常用爬虫技巧盘点

  

              python                  

  

        

  

     网络相关的,总要用到获取链接的一些方法,                              

  

  <强>         

  

     

  

                       

  

     

  

                                               

  

  <强>         

  

     IP被封了,或者比如IP访问的次数受到限制等等。      

  

     

  

     

  

     

  

     

  

     

  

  <强>         <强>         

  

     

  

     

  

     

  

     

  

     

  

     饼干,那就加入proxy_support然后曲谱改为,      

  

     

  

  <强>         <强>            

  

     http包中的头来实现:      

  

     

  

     

  

     

  

     

  

     

  

     

  

     

  

     

  

  <强>         

  

        

  

  带你入门Python爬虫,8个常用爬虫技巧盘点”>
  
  </p>
  <p>
  
  lxml和BeautifulSoup。
  
  
  
  HTML/XML的处理库,Beautifulsoup纯python实现,效率低,但是功能实用,比如能用通过结果搜索获得某个HTML节点的源码;lxmlC语言编码,高效、支持Xpath
  
  
  
  </p>
  <p>
  <强>
  
  </强>
  <强>
  
  </强>
  </p>
  <p>
  
  
  </p>
  <p>
  
  
  
  </p>
  <p>
  
  (例如PCA)降维并生成特征库,然后把验证码和特征库进行比较,这个比较复杂,这里就不展开了,具体做法请弄本相关教科书好好研究一下。
  
  </p>
  <p>
  <强>
  
  </强>
  <强>
  
  </强>
  </p>
  <p>
  
  gzip压缩,这往往可以解决大量传输时间,以电驴网站的主页为例,未压缩版本247 k,压缩了以后45 k,为原来的1/5。这就意味着抓取速度会快5倍。
  
  </p>
  <p>
  
  python的urllib/urllib2默认都不支持压缩,要返回压缩格式,必须在请求的标题里面写明“接受编码”,然后读取反应后更要检查头查看是否有“内容编码”一项来判断是否需要解码,很繁琐琐碎。如何让urllib2自动支持gzip、defalte呢?
  
  </p>
  <p>
  
  BaseHanlder类,然后build_opener的方式来处理:
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  
  </p>
  <p>
  <强>
  
  </强>
  </p>
  <p>
  
  
  
  1 - 10,但是可以看出是并发的。
  
  </p>
  <p>
  
  Python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能一定程度提高效率的。
  
  <h2 class=带你入门Python爬虫,8个常用爬虫技巧盘点