介绍
小编给大家分享一python爬下虫框架废弃的使用方法,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!
<强> Scrapy简介强> <强> 强>
<强> 强> <强> 强>
<强> linux和Mac系统下,可使用脉冲安装。强> <强> 强>
pip install Scrapy
<强> 强> <强> 强> <强> 强>
conda install -c conda-forge Scrapy
<强> 强> <强> 强>
scrapy startproject v6_scrapy
<强>蜘蛛强> <强> 强>
sipders目录中,添加我们的爬虫文件toutiao_spider。py,内容如下:
#,- *安康;编码:utf-8 - * - import scrapy , , class ToutiaoSpider (scrapy.Spider): ,,,name =, & # 39; toutiao& # 39; ,,,start_urls =, ( ,,,,,,,& # 39;https://toutiao.io/c/ai?page=1& # 39; ,,,) , ,,,def 解析(自我,,反应): ,,,,,,,,,, ,,,,,,,实现html解析 ,,,,,,,:param 反应: ,,,,,,,:返回: ,,,,,,,,,, ,,,,,,,papers =, response.xpath (& # 39;//[@rel=癳xternal"] & # 39;) ,,,,,,,for paper 拷贝纸: ,,,,,,,,,,,title =, paper.xpath (& # 39;。/@title& # 39;) .extract () [0] ,,,,,,,,,,,href =, & # 39; https://toutiao.io%s& # 39;, %, paper.xpath (& # 39;。/@href& # 39;) .extract () [0] ,,,,,,, ,,,,,,,印刷(标题,href)
<强> 强> <强> 强>
scrapy crawl toutiao
<强>项目强> <强> 强>
class ToutiaoItem (scrapy.Item): ,,,title =, scrapy.Field () href =, scrapy.Field ()
<强>项目管道持久化到文件强> <强> 强>
class V6ScrapyFilePipeline(对象): , ,,,def __init__(自我): ,,,,,,,self.file =,开放(& # 39;toutiao.json& # 39;,, & # 39; wb # 39;) , ,,,def process_item(自我,,,,蜘蛛): ,,,,,,,if 项目(& # 39;标题# 39;): ,,,,,,,,,,,line =, json.dumps (dict(项)+“\ n" ,,,,,,,,,,,self.file.write (line.encode ()) ,,,,,,,,,,,return 项目 ,,,,,,,其他的: ,,,,,,,,,,,raise DropItem(& # 39;在(% s)项目中,没有标题关键字& # 39;%项)
以上是python爬虫框架废弃的使用方法的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!