python爬虫框架废弃的使用方法

  介绍

小编给大家分享一python爬下虫框架废弃的使用方法,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!

<强> Scrapy简介 <强>

<强> <强>

<强> linux和Mac系统下,可使用脉冲安装。 <强>

pip  install  Scrapy

<强> <强> <强>

conda  install  -c  conda-forge  Scrapy

<强> <强>

scrapy  startproject  v6_scrapy

<强>蜘蛛 <强>

sipders目录中,添加我们的爬虫文件toutiao_spider。py,内容如下:

#,- *安康;编码:utf-8  - * -   import  scrapy   ,   ,   class  ToutiaoSpider (scrapy.Spider):   ,,,name =, & # 39; toutiao& # 39;   ,,,start_urls =, (   ,,,,,,,& # 39;https://toutiao.io/c/ai?page=1& # 39;   ,,,)   ,   ,,,def 解析(自我,,反应):   ,,,,,,,,,,   ,,,,,,,实现html解析   ,,,,,,,:param 反应:   ,,,,,,,:返回:   ,,,,,,,,,,   ,,,,,,,papers =, response.xpath (& # 39;//[@rel=癳xternal"] & # 39;)   ,,,,,,,for  paper 拷贝纸:   ,,,,,,,,,,,title =, paper.xpath (& # 39;。/@title& # 39;) .extract () [0]   ,,,,,,,,,,,href =, & # 39; https://toutiao.io%s& # 39;, %, paper.xpath (& # 39;。/@href& # 39;) .extract () [0]   ,,,,,,,   ,,,,,,,印刷(标题,href)

<强> <强>

scrapy  crawl  toutiao

<强>项目 <强>

class  ToutiaoItem (scrapy.Item):   ,,,title =, scrapy.Field ()   href =, scrapy.Field ()

<强>项目管道持久化到文件 <强>

class  V6ScrapyFilePipeline(对象):   ,   ,,,def  __init__(自我):   ,,,,,,,self.file =,开放(& # 39;toutiao.json& # 39;,, & # 39; wb # 39;)   ,   ,,,def  process_item(自我,,,,蜘蛛):   ,,,,,,,if 项目(& # 39;标题# 39;):   ,,,,,,,,,,,line =, json.dumps (dict(项)+“\ n"   ,,,,,,,,,,,self.file.write (line.encode ())   ,,,,,,,,,,,return 项目   ,,,,,,,其他的:   ,,,,,,,,,,,raise  DropItem(& # 39;在(% s)项目中,没有标题关键字& # 39;%项)

以上是python爬虫框架废弃的使用方法的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

python爬虫框架废弃的使用方法