Python爬虫利用scrapy创建项目 - 行业资讯 - 肥雀云

　　介绍

本篇文章给大家分享的是有Python爬关虫利用scrapy创建项目,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

<强>一、安装scrapy

1.1 linux系统使用:pip安装scrapy

1.2 windows系统:

pip install

下轮载扭曲http://www.lfd.uci.edu/gohlke pythonlibs/# twisted (根据Python的版本进行下载,这里我的Python版本是3.7所以就下的3.7)

pip install 路径\ Twisted-19.2.1-cp37-cp37m-win_amd64 　　pip install pywin32 　　pip install scrapy

环境:Windows 7,x64 ,Python3.7.1 pycharm

<强> 1,新建一个项目,选择Python即可。我这里创建的项目名是演示。创建好后是一个空的项目。

<强> 2,点击pycharm下面的终端,如下图所示:

<强> Python爬虫利用scrapy创建项目

在终端中输入:scrapy startproject演示命令,创建scrapy项目,创建成功后会出现如下目录结构:

Python爬虫利用scrapy创建项目

各文件作用大致如下:

scrapy.cfg:项目的配置文件

演示/:该项目的Python模块。在此加入代码。

演示/items.py:项目中项目的文件主要用于定义数据的结构化存储,类似于ORM中的模型。

演示/pipelines.py:项目中管道的文件,指定数据的存储方式(以文件的形式存储,存储到数据库中)。

演示/settings.py:项目的设置文件。

演示/蜘蛛/:放置蜘蛛代码的目录。我们写的爬虫代码在这个目录下。

<强> 3,创建爬虫文件

3.1在终端中输入:cd演示(我这里输入演示是因为我的项目名是演示)

3.2在终端中输入:scrapy genspider图书books.toscrape.com (scrapy genspider 应用名称爬取网页的起始url)

Python爬虫利用scrapy创建项目

<强> 4,打开书文件,该文件结构如下:

<强> Python爬虫利用scrapy创建项目

<强> 5,爬取网站http://books.toscrape.com/的书籍信息。

5.1分析http://books.toscrape.com/页面。

Python爬虫利用scrapy创建项目

由上图我们可以知道所有书籍都存放在div/ol/下李的标签中。这里我们只打印书名,由此我们可以像下面这样写来提取数据。

Python爬虫利用scrapy创建项目

5.2书中的部分代码如下:

def 解析(自我,,反应): 　　,,,,,,,& # 39;& # 39;& # 39; 　　,,,,,,,数据解析,提取。　　,,,,,,,:param 反应:,爬取到的响应对象　　,,,,,,,:返回: 　　,,,,,,,& # 39;& # 39;& # 39; 　　,,,,,,,book_list =, response.xpath (& # 39;/html/身体/div/div/div/div/部分/div [2]/ol/李# 39;) 　　,,,,,,,for book 拷贝book_list: 　　,,,,,,,,,,,印刷(book.xpath(& # 39;。/文章/div [1]//img/@alt& # 39;) .extract ())

5.3在设置。py中配置如下:

USER_AGENT =, & # 39; Mozilla/5.0, (Windows NT 6.1;, Win64;, x64;,房车:67.0),壁虎/20100101,Firefox/67.0 & # 39;,,, # UA头　　时间=ROBOTSTXT_OBEY False ,, #,如果为真正的表示准信机器人协议,则大多数数据都爬不了。所以这里设置为误=LOG_LEVEL & # 39;错误# 39;,,#,日志等级

5.4在终端中执行爬取命令:

scrapy crawl 书

打印内容如下

[& # 39;A Light 拷贝,阁楼# 39;】　　[& # 39;Tipping 从而,天鹅绒# 39;】　　[& # 39;Soumission& # 39;】　　[& # 39;Sharp 对象# 39;】　　[& # 39;智人:,A Brief History of 人类# 39;】　　[& # 39;从而,Requiem 红色# 39;】　　[& # 39;从而,Dirty Little Secrets of Getting Your Dream 工作# 39;】　　[& # 39;从而,Coming 女人:,A Novel Based 提醒,Life of 从而Infamous 女权主义者,Victoria Woodhull& # 39;】　　[& # 39;从而,Boys 拷贝,船:,Nine Americans 以及Their Epic Quest for Gold at 从而;1936年,Berlin 奥运# 39;】　　[& # 39;从而,Black 玛丽亚# 39;】　　[& # 39;Starving Hearts (Triangular Trade 三部曲,# 1)& # 39;】　　(“莎士比亚# 39;s Sonnets"】　　[& # 39;Set Me 自由# 39;】　　(“Scott 朝圣者# 39;s Precious Little Life (Scott Pilgrim # 1)“) 　　[& # 39;Rip it Up 以及Start 再次,) 　　[& # 39;Our Band Could Be Your 生活:,Scenes 得到,American Indie 地下,,1981 - 1991 & # 39;】　　[& # 39;什锦菜# 39;】　　[& # 39;Mesaerion:从而Best Science Fiction Stories 1800 - 1849 & # 39;】　　[& # 39;Libertarianism for 初学者# 39;】　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null 　　null