Scrapy (SKRAY 尿)是一个免费和开源,网络爬行,框架,Python编写的。最初设计用于Web抓取,它还可
以用于使用API或作为通用Web爬网程序提取数据。它目前由网络抓取开发和服务公司Scrapinghub 有限公司维护
。
Scrapy项目体系结构是围绕“蜘蛛”构建的,它们是自包含的爬虫,可以获得一组指令。遵循其他框架的精
神,不重复自己的框架,例如Django,它允许开发人员重用他们的代码,从而更容易构建和扩展大型爬行项
目.Scrapy还提供了一个Web爬行壳,开发人员可以使用它来测试他们对站点行为的假设。
(英译汉有点尴尬!真的想学,还是好好看上面的帮助文档吧)
& # 39;& # 39;& # 39;
代码
>之前
下面操作之前你需要准备好:
(1)你的
<代码>
python> 代码
版本是3.倍,最好系统里只有一个python环境,后面所有学习笔记都基于
<代码>
py3> 代码
的。
(2)
<代码>
python> 代码
环境里先安装
<代码>
virtualenv> 代码
模块,基本方法
<代码>
pip安装virtualenv> 代码
。
(3)选择好虚拟环境的安装目录(我选的是H盘目录下的
<代码>
env> 代码
文件夹,建议你选的目录路径里最好不要有中文)。
Using base  prefix & # 39; c: \ \ \ \ 82055 \ \ appdata \ \用户本地python \ \ \ \程序\ \ python36& # 39;
New python  executable 拷贝;H: \ \ python.exe env \ spiderenv \脚本
Installing setuptools,皮普,,轮……。
注:如果系统中有两个python环境(py2和py3),新建基于py3的虚拟环境方法
virtualenv python=你的Python3安装目录(精确到python.exe), spiderenv(虚拟环境名称)
代码 >之前
安装完成后再自己选择的目录下会多出一个文件夹(虚拟环境),我这里为 <代码> H: \ env \ spiderenv> 代码 ,后面所有爬虫学习过程中需要的模块,接口都将 <代码> 皮普> 代码 (安装)在里面。
进入到目录 <代码> H: \ env \ spiderenv \脚本> 代码 (我的虚拟环境目录),按住 <代码> 转变> 代码 +鼠标右键,打开 <代码> powershell> 代码 或者 <代码> cmd> 代码 (如果是 <代码> powershell> 代码 就先输入 <代码> cmd> 代码 ),再输入 <代码> 激活> 代码 ,进入虚拟环境,你会发现在路径前面多了一个括号里面是你的虚拟环境名称,表示你进入了虚拟环境。具体看下面:
<前> <代码类=" powershell language-powershell "> #,注:打开powershell 的可以参照下面操作PS H: \ env \ spiderenv \ Scripts> cmd
Microsoft Windows [版本,10.0.17134.112]
(c), 2018年,Microsoft 公司。保留所有权利。
H: \ env \ spiderenv \ Scripts>激活