本篇文章给大家分享的是有Python爬关虫利用scrapy创建项目,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
<强>一、安装scrapy 强>
1.1 linux系统使用:pip安装scrapy
1.2 windows系统:
pip install
下轮载扭曲http://www.lfd.uci.edu/gohlke pythonlibs/# twisted (根据Python的版本进行下载,这里我的Python版本是3.7所以就下的3.7)
pip install 路径\ Twisted-19.2.1-cp37-cp37m-win_amd64 pip install  pywin32 pip install  scrapy
环境:Windows 7,x64 ,Python3.7.1 pycharm
<强> 1,新建一个项目,选择Python即可。我这里创建的项目名是演示。创建好后是一个空的项目。强>
<强> 2,点击pycharm下面的终端,如下图所示:强>
<强> 强>
在终端中输入:scrapy startproject演示命令,创建scrapy项目,创建成功后会出现如下目录结构:
各文件作用大致如下:
scrapy.cfg:项目的配置文件
演示/:该项目的Python模块。在此加入代码。
演示/items.py:项目中项目的文件主要用于定义数据的结构化存储,类似于ORM中的模型。
演示/pipelines.py:项目中管道的文件,指定数据的存储方式(以文件的形式存储,存储到数据库中)。
演示/settings.py:项目的设置文件。
演示/蜘蛛/:放置蜘蛛代码的目录。我们写的爬虫代码在这个目录下。
<强> 3,创建爬虫文件强>
3.1在终端中输入:cd演示(我这里输入演示是因为我的项目名是演示)
3.2在终端中输入:scrapy genspider图书books.toscrape.com (scrapy genspider 应用名称爬取网页的起始url)
<强> 4,打开书文件,该文件结构如下:强>
<强> 强>
<强> 5,爬取网站http://books.toscrape.com/的书籍信息。强>
5.1分析http://books.toscrape.com/页面。
由上图我们可以知道所有书籍都存放在div/ol/下李的标签中。这里我们只打印书名,由此我们可以像下面这样写来提取数据。
5.2书中的部分代码如下:
def 解析(自我,,反应): ,,,,,,,& # 39;& # 39;& # 39; ,,,,,,,数据解析,提取。 ,,,,,,,:param 反应:,爬取到的响应对象 ,,,,,,,:返回: ,,,,,,,& # 39;& # 39;& # 39; ,,,,,,,book_list =, response.xpath (& # 39;/html/身体/div/div/div/div/部分/div [2]/ol/李# 39;) ,,,,,,,for book 拷贝book_list: ,,,,,,,,,,,印刷(book.xpath(& # 39;。/文章/div [1]//img/@alt& # 39;) .extract ())
5.3在设置。py中配置如下:
USER_AGENT =, & # 39; Mozilla/5.0, (Windows NT 6.1;, Win64;, x64;,房车:67.0),壁虎/20100101,Firefox/67.0 & # 39;,,, # UA头 时间=ROBOTSTXT_OBEY False ,, #,如果为真正的表示准信机器人协议,则大多数数据都爬不了。所以这里设置为误=LOG_LEVEL & # 39;错误# 39;,,#,日志等级
5.4在终端中执行爬取命令:
scrapy crawl 书
打印内容如下
[& # 39;A  Light 拷贝,阁楼# 39;】 [& # 39;Tipping 从而,天鹅绒# 39;】 [& # 39;Soumission& # 39;】 [& # 39;Sharp 对象# 39;】 [& # 39;智人:,A Brief History of 人类# 39;】 [& # 39;从而,Requiem 红色# 39;】 [& # 39;从而,Dirty Little Secrets of Getting Your Dream 工作# 39;】 [& # 39;从而,Coming 女人:,A Novel Based 提醒,Life of 从而Infamous 女权主义者,Victoria Woodhull& # 39;】 [& # 39;从而,Boys 拷贝,船:,Nine Americans 以及Their Epic Quest for Gold at 从而;1936年,Berlin 奥运# 39;】 [& # 39;从而,Black 玛丽亚# 39;】 [& # 39;Starving Hearts (Triangular Trade 三部曲,# 1)& # 39;】 (“莎士比亚# 39;s  Sonnets"】 [& # 39;Set Me 自由# 39;】 (“Scott 朝圣者# 39;s Precious Little Life (Scott Pilgrim # 1)“) [& # 39;Rip it  Up 以及Start 再次,) [& # 39;Our Band  Could Be Your 生活:,Scenes 得到,American Indie 地下,,1981 - 1991 & # 39;】 [& # 39;什锦菜# 39;】 [& # 39;Mesaerion:从而Best Science Fiction Stories 1800 - 1849 & # 39;】 [& # 39;Libertarianism for 初学者# 39;】 null null null null null null null null null null null null null null null null null null null null null null nullPython爬虫利用scrapy创建项目