【Python |边学边敲边记】第四次:初识爬虫框架Scrapy - 行业资讯

　　<>节　　<>节　　<>节　　

　　　　　　　　
　　　　　　Scrapy (SKRAY 尿)是一个免费和开源,网络爬行,框架,Python编写的。最初设计用于Web抓取,它还可　　
　　　　以用于使用API或作为通用Web爬网程序提取数据。它目前由网络抓取开发和服务公司Scrapinghub 有限公司维护　　
　　　　。　　
　　　　Scrapy项目体系结构是围绕“蜘蛛”构建的,它们是自包含的爬虫,可以获得一组指令。遵循其他框架的精　　
　　　　神,不重复自己的框架,例如Django,它允许开发人员重用他们的代码,从而更容易构建和扩展大型爬行项　　
　　　　目.Scrapy还提供了一个Web爬行壳,开发人员可以使用它来测试他们对站点行为的假设。　　
　　　　(英译汉有点尴尬!真的想学,还是好好看上面的帮助文档吧) 　　
　　　　& # 39;& # 39;& # 39; 　　　　
之前　　

　　下面操作之前你需要准备好: 　　
　　(1)你的　　<代码> 　　python> 　　py3> 　　(2) 　　<代码> 　　python> 　　virtualenv> 　　pip安装virtualenv> 　　(3)选择好虚拟环境的安装目录(我选的是H盘目录下的　　<代码> 　　env> 　　<前> 　　<代码类=" git language-git "> 　　　　PS H: \ env \祝辞virtualenv spiderenv 　　
　　　　Using base prefix & # 39; c: \ \ \ \ 82055 \ \ appdata \ \用户本地python \ \ \ \程序\ \ python36& # 39; 　　
　　　　New python executable 拷贝;H: \ \ python.exe env \ spiderenv \脚本　　
　　　　Installing setuptools,皮普,,轮……。　　
　　　　注:如果系统中有两个python环境(py2和py3),新建基于py3的虚拟环境方法　　
　　　　virtualenv python=你的Python3安装目录(精确到python.exe), spiderenv(虚拟环境名称) 　　
之前　　

　　安装完成后再自己选择的目录下会多出一个文件夹(虚拟环境),我这里为　　<代码> 　　H: \ env \ spiderenv> 　　皮普> 　　　　　　　　

　　进入到目录　　<代码> 　　H: \ env \ spiderenv \脚本> 　　转变> 　　powershell> 　　cmd> 　　powershell> 　　cmd> 　　激活> 　　<前> 　　<代码类=" powershell language-powershell "> 　　　　#,注:打开powershell 的可以参照下面操作　　
　　　　PS H: \ env \ spiderenv \ Scripts> cmd 　　
　　　　Microsoft Windows [版本,10.0.17134.112] 　　
　　　　(c), 2018年,Microsoft 公司。保留所有权利。　　
　　　　
　　　　H: \ env \ spiderenv \ Scripts>激活