Scrapy框架使用代理IP要点是什么 - 行业资讯 - 肥雀云

介绍

Scrapy框架使用代理IP要点是什么,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

Scrapy框架通过模块化的设计实现了数据采集的通用功能接口,并提供自定义拓展,它将程序员从繁冗的流程式重复劳动中解放出来,给编程人员提供了灵活简便的基础构建,对于普通的网页数据采集,编程人员只需要将主要精力投入在网站数据分析和网站反爬策略分析上,结合代理IP的使用,可以实现项目的高效快速启动。

主要特性包括:

1)参数化设置请求并发数,自动异步执行

2)支持xpath,简洁高效

3)支持自定义中间件中间件

4)支持采集源列表

5)支持独立调试,方便,壳牌方式

6)支持数据管道接口定义,用户可以选择文本,数据库等多种方式

在Scrapy框架中使用代理的方式有如下几种:

<强> 1. Scrapy中间件

在项目中新建middlewares.py文件(./项目名/middlewares.py),内容如下:

# !- * -编码:utf - 8 - *安康;,

import base64

import sys

import 随机

PY3 =, sys.version_info[0],祝辞=,3

def base64ify (bytes_or_str):

,,if PY3 以及isinstance (bytes_or_str, str):

,,,=,,input_bytes bytes_or_str.encode (& # 39; use utf8 # 39;)

,,其他:

,,,=,,input_bytes bytes_or_str ,,,,,,,

,=,,output_bytes base64.urlsafe_b64encode (input_bytes)

,,if PY3:

,,,,return output_bytes.decode (& # 39; ascii # 39;)

,,其他:

,,,,return output_bytes

class ProxyMiddleware(对象):

,,def process_request(自我,,请求,,蜘蛛):

,,,,#代理服务器(产品官网www.16yun.cn)

,,,=,proxyHost “t.16yun.cn"

,,,=,proxyPort “31111“

,,,,#代理验证信息

,,,=,proxyUser “username"

,,,=,proxyPass “password",

,,,,request.meta[& # 39;代理# 39;],=,“http://{0}: {1}“.format (proxyHost proxyPort)

,,,,#添加验证头

,,,=,,encoded_user_pass base64ify (proxyUser +,“:“, +, proxyPass)

,,,,request.headers [& # 39; Proxy-Authorization& # 39;],=, & # 39;基本& # 39;,+,encoded_user_pass

,,,,#设置IP切换头(根据需求)

,,,=,,tunnel random.randint (10000)

,,,,request.headers [& # 39; Proxy-Tunnel& # 39;],=, str(隧道)

修改项目配置文件(./项目名/settings.py)

,,DOWNLOADER_MIDDLEWARES =, {

,,,,& # 39;项目名.middlewares.ProxyMiddleware& # 39;:, 100,

,,}

<强> 2. scrapy环境变量

通过设置环境变量,来使用爬虫代理(Windows)

,C: \祝辞set http_proxy=http://username password@ip:港口

关于Scrapy框架使用代理IP要点是什么问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注行业资讯频道了解更多相关知识。