Python爬虫利用scrapy创建项目

  介绍

本篇文章给大家分享的是有Python爬关虫利用scrapy创建项目,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

<强>一、安装scrapy

1.1 linux系统使用:pip安装scrapy

1.2 windows系统:

pip  install 

下轮载扭曲http://www.lfd.uci.edu/gohlke pythonlibs/# twisted (根据Python的版本进行下载,这里我的Python版本是3.7所以就下的3.7)

pip  install 路径\ Twisted-19.2.1-cp37-cp37m-win_amd64   pip  install  pywin32   pip  install  scrapy

环境:Windows 7,x64 ,Python3.7.1 pycharm

<强> 1,新建一个项目,选择Python即可。我这里创建的项目名是演示。创建好后是一个空的项目。

<强> 2,点击pycharm下面的终端,如下图所示:

<强>  Python爬虫利用scrapy创建项目

在终端中输入:scrapy startproject演示命令,创建scrapy项目,创建成功后会出现如下目录结构:

 Python爬虫利用scrapy创建项目

各文件作用大致如下:

scrapy.cfg:项目的配置文件

演示/:该项目的Python模块。在此加入代码。

演示/items.py:项目中项目的文件主要用于定义数据的结构化存储,类似于ORM中的模型。

演示/pipelines.py:项目中管道的文件,指定数据的存储方式(以文件的形式存储,存储到数据库中)。

演示/settings.py:项目的设置文件。

演示/蜘蛛/:放置蜘蛛代码的目录。我们写的爬虫代码在这个目录下。

<强> 3,创建爬虫文件

3.1在终端中输入:cd演示(我这里输入演示是因为我的项目名是演示)

3.2在终端中输入:scrapy genspider图书books.toscrape.com (scrapy genspider 应用名称爬取网页的起始url)

 Python爬虫利用scrapy创建项目

<强> 4,打开书文件,该文件结构如下:

<强>  Python爬虫利用scrapy创建项目

<强> 5,爬取网站http://books.toscrape.com/的书籍信息。

5.1分析http://books.toscrape.com/页面。

 Python爬虫利用scrapy创建项目

由上图我们可以知道所有书籍都存放在div/ol/下李的标签中。这里我们只打印书名,由此我们可以像下面这样写来提取数据。

 Python爬虫利用scrapy创建项目

5.2书中的部分代码如下:

def 解析(自我,,反应):   ,,,,,,,& # 39;& # 39;& # 39;   ,,,,,,,数据解析,提取。   ,,,,,,,:param 反应:,爬取到的响应对象   ,,,,,,,:返回:   ,,,,,,,& # 39;& # 39;& # 39;   ,,,,,,,book_list =, response.xpath (& # 39;/html/身体/div/div/div/div/部分/div [2]/ol/李# 39;)   ,,,,,,,for  book 拷贝book_list:   ,,,,,,,,,,,印刷(book.xpath(& # 39;。/文章/div [1]//img/@alt& # 39;) .extract ())

5.3在设置。py中配置如下:

USER_AGENT =, & # 39; Mozilla/5.0, (Windows  NT  6.1;, Win64;, x64;,房车:67.0),壁虎/20100101,Firefox/67.0 & # 39;,,, # UA头   时间=ROBOTSTXT_OBEY  False ,, #,如果为真正的表示准信机器人协议,则大多数数据都爬不了。所以这里设置为误=LOG_LEVEL  & # 39;错误# 39;,,#,日志等级

5.4在终端中执行爬取命令:

scrapy  crawl 书

打印内容如下

[& # 39;A  Light 拷贝,阁楼# 39;】   [& # 39;Tipping 从而,天鹅绒# 39;】   [& # 39;Soumission& # 39;】   [& # 39;Sharp 对象# 39;】   [& # 39;智人:,A  Brief  History  of 人类# 39;】   [& # 39;从而,Requiem 红色# 39;】   [& # 39;从而,Dirty  Little  Secrets  of  Getting  Your  Dream 工作# 39;】   [& # 39;从而,Coming 女人:,A  Novel  Based 提醒,Life  of 从而Infamous 女权主义者,Victoria  Woodhull& # 39;】   [& # 39;从而,Boys 拷贝,船:,Nine  Americans 以及Their  Epic  Quest  for  Gold  at 从而;1936年,Berlin 奥运# 39;】   [& # 39;从而,Black 玛丽亚# 39;】   [& # 39;Starving  Hearts  (Triangular  Trade 三部曲,# 1)& # 39;】   (“莎士比亚# 39;s  Sonnets"】   [& # 39;Set  Me 自由# 39;】   (“Scott 朝圣者# 39;s  Precious  Little  Life  (Scott  Pilgrim  # 1)“)   [& # 39;Rip  it  Up 以及Start 再次,)   [& # 39;Our  Band  Could  Be  Your 生活:,Scenes 得到,American  Indie 地下,,1981 - 1991 & # 39;】   [& # 39;什锦菜# 39;】   [& # 39;Mesaerion:从而Best  Science  Fiction  Stories  1800 - 1849 & # 39;】   [& # 39;Libertarianism  for 初学者# 39;】   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null

Python爬虫利用scrapy创建项目