python爬虫框架废弃的使用方法 - 行业资讯 - 肥雀云

　　介绍

小编给大家分享一python爬下虫框架废弃的使用方法,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!

<强> Scrapy简介 <强>

<强> <强>

<强> linux和Mac系统下,可使用脉冲安装。 <强>

pip install Scrapy

<强> <强> <强>

conda install -c conda-forge Scrapy

<强> <强>

scrapy startproject v6_scrapy

<强>蜘蛛 <强>

sipders目录中,添加我们的爬虫文件toutiao_spider。py,内容如下:

#,- *安康;编码:utf-8 - * - 　　import scrapy 　　, 　　, 　　class ToutiaoSpider (scrapy.Spider): 　　,,,name =, & # 39; toutiao& # 39; 　　,,,start_urls =, ( 　　,,,,,,,& # 39;https://toutiao.io/c/ai?page=1& # 39; 　　,,,) 　　, 　　,,,def 解析(自我,,反应): 　　,,,,,,,,,, 　　,,,,,,,实现html解析　　,,,,,,,:param 反应: 　　,,,,,,,:返回: 　　,,,,,,,,,, 　　,,,,,,,papers =, response.xpath (& # 39;//[@rel=癳xternal"] & # 39;) 　　,,,,,,,for paper 拷贝纸: 　　,,,,,,,,,,,title =, paper.xpath (& # 39;。/@title& # 39;) .extract () [0] 　　,,,,,,,,,,,href =, & # 39; https://toutiao.io%s& # 39;, %, paper.xpath (& # 39;。/@href& # 39;) .extract () [0] 　　,,,,,,, 　　,,,,,,,印刷(标题,href)

<强> <强>

scrapy crawl toutiao

<强>项目 <强>

class ToutiaoItem (scrapy.Item): 　　,,,title =, scrapy.Field () 　　href =, scrapy.Field ()

<强>项目管道持久化到文件 <强>

class V6ScrapyFilePipeline(对象): 　　, 　　,,,def __init__(自我): 　　,,,,,,,self.file =,开放(& # 39;toutiao.json& # 39;,, & # 39; wb # 39;) 　　, 　　,,,def process_item(自我,,,,蜘蛛): 　　,,,,,,,if 项目(& # 39;标题# 39;): 　　,,,,,,,,,,,line =, json.dumps (dict(项)+“\ n" 　　,,,,,,,,,,,self.file.write (line.encode ()) 　　,,,,,,,,,,,return 项目　　,,,,,,,其他的: 　　,,,,,,,,,,,raise DropItem(& # 39;在(% s)项目中,没有标题关键字& # 39;%项)

以上是python爬虫框架废弃的使用方法的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!