nginx防盗链防爬虫的配置方法?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
,新建配置配置文件(例如进入到nginx安装目录下的设计目录,创建:agent_deny。conf)
禁止Scrapy等工具的抓取如果($ http_user_agent ~ * (Scrapy | |旋度HttpClient)){返回403;}
禁止指定UA及UA为空的访问
# Scrapy禁止 如果($ http_user_agent ~ * (Scrapy | |旋度HttpClient)) { 返回403; } #禁止UA 如果($ http_user_agent ~“Bytespider | FeedDemon | JikeSpider |印第安纳·琼斯图书馆| Alexa工具条| AskTbFXTV | AhrefsBot | CrawlDaddy | CoolpadWebkit Java | | Feedly | UniversalFeedParser | ApacheBench |微软URL控制| Swiftbot | ZmEu | oBot |洋洋得意的| Python-urllib | lightDeckReports机器人| YYSpider | DigExt | YisouSpider | HttpClient | MJ12bot | heritrix | EasouSpider | Ezooms | ^ $“) { 返回403; } #禁止| |头POST方法访问 如果($ request_method ! ~ ^ (GET | |头POST)美元) { 返回403; }
然后,在网站相关配置中的服务器段插入如下代码:包括agent_deny.conf;
重启nginx:
/数据/nginx/sbin/nginx - s重载
测试使用curl——模拟抓取即可,比如:
curl - - & # 39; YYSpider& # 39;,& lt; & lt; www.xxx.con>的在
结果
[root@11 conf] #卷发我——& # 39;YYSpider& # 39;www.xxx.cn
引用>
HTTP/1.1 403禁止服务器:nginx/1.12.0
日期:结婚,2019年4月24日格林尼治时间11:35:21
的content - type: text/html内容长度
: 169
连接:维生
模拟UA为空的抓取:
curl——我——# 39;& # 39;,& lt; & lt; www.xxx.cn>的在结果
[root@11 conf] #卷发我——# 39;& # 39;www.xxx.cn
引用>
HTTP/1.1 403禁止服务器:nginx/1.12.0
日期:结婚,2019年4月24日格林尼治时间11:36:06
的content - type: text/html内容长度
: 169
连接:维生
模拟百度蜘蛛的抓取:
curl - i - & # 39; Baiduspider& # 39;& lt; & lt; & lt; www.xxx.cn>在祝辞[root@11 conf] #卷发我——& # 39;Baiduspider& # 39;www.xxx.cn
引用>
HTTP/1.1 200 OK
服务器:nginx/1.12.0
日期:结婚,2019年4月24日格林尼治时间11:36:47
的content - type: text/html内容长度
: 612
last - modified:星期五,2019年4月12日格林尼治时间13:49:36
连接:维生
ETag:“5 cb09770 - 264“
Accept-Ranges:字节
FeedDemon内容采集 JCE BOT/0.1 (BOT) sql注入 CrawlDaddy sql注入 Java内容采集 Jullo内容采集 Feedly内容采集 UniversalFeedParser内容采集 ApacheBench cc攻击器 Swiftbot无用爬的虫 YandexBot无用爬的虫 AhrefsBot无用爬的虫 YisouSpider无用爬虫(已被加州大学神马搜索收购,此蜘蛛可以放开!) jikeSpider无用爬的虫 MJ12bot无用爬的虫 ZmEu phpmyadmin漏洞扫描 WinHttp采集cc攻击 EasouSpider无用爬的虫 HttpClient tcp攻击 微软URL控制扫描 YYSpider无用爬的虫 活泼的wordpress爆破扫描器 oBot无用爬的虫 Python-urllib内容采集 印地赛车图书馆扫描 FlightDeckReports机器人无用爬的虫 liniguee机器人无用爬虫<强>
强>背景:防止第三方引用链接访问我们的图片,消耗服务器资源和网络流量,我们可以在服务器上做防盗链限制。
实现防盗链的方式有两种:参考方式和签名方式。参考方式实现防盗链
工作模块:ngx_http_referer_module。
作用变量:invalid_referer美元,全局变量。
配置域:服务器位置
配置:
nginx防盗链防爬虫的配置方法