nginx防盗链防爬虫的配置方法

  介绍

nginx防盗链防爬虫的配置方法?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

,新建配置配置文件(例如进入到nginx安装目录下的设计目录,创建:agent_deny。conf)

禁止Scrapy等工具的抓取如果($ http_user_agent ~ * (Scrapy | |旋度HttpClient)){返回403;}

禁止指定UA及UA为空的访问

 # Scrapy禁止
  如果($ http_user_agent ~ * (Scrapy | |旋度HttpClient))
  {
  返回403;
  }
  
  #禁止UA
  如果($ http_user_agent ~“Bytespider | FeedDemon | JikeSpider |印第安纳·琼斯图书馆| Alexa工具条| AskTbFXTV | AhrefsBot | CrawlDaddy | CoolpadWebkit Java | | Feedly | UniversalFeedParser | ApacheBench |微软URL控制| Swiftbot | ZmEu | oBot |洋洋得意的| Python-urllib | lightDeckReports机器人| YYSpider | DigExt | YisouSpider | HttpClient | MJ12bot | heritrix | EasouSpider | Ezooms | ^ $“)
  {
  返回403;
  }
  
  #禁止| |头POST方法访问
  如果($ request_method ! ~ ^ (GET | |头POST)美元)
  {
  返回403;
  }

然后,在网站相关配置中的服务器段插入如下代码:包括agent_deny.conf;

重启nginx:

/数据/nginx/sbin/nginx - s重载

测试使用curl——模拟抓取即可,比如:

curl - - & # 39; YYSpider& # 39;,& lt; & lt; www.xxx.con>的在

结果

[root@11 conf] #卷发我——& # 39;YYSpider& # 39;www.xxx.cn

HTTP/1.1 403禁止服务器:nginx/1.12.0
日期:结婚,2019年4月24日格林尼治时间11:35:21
的content - type: text/html内容长度
: 169
连接:维生

模拟UA为空的抓取:

 curl——我——# 39;& # 39;,& lt; & lt; www.xxx.cn>的在

结果

[root@11 conf] #卷发我——# 39;& # 39;www.xxx.cn

HTTP/1.1 403禁止服务器:nginx/1.12.0
日期:结婚,2019年4月24日格林尼治时间11:36:06
的content - type: text/html内容长度
: 169
连接:维生

模拟百度蜘蛛的抓取:

 curl - i - & # 39; Baiduspider& # 39;& lt; & lt; & lt; www.xxx.cn>在祝辞

[root@11 conf] #卷发我——& # 39;Baiduspider& # 39;www.xxx.cn
HTTP/1.1 200 OK
服务器:nginx/1.12.0
日期:结婚,2019年4月24日格林尼治时间11:36:47
的content - type: text/html内容长度
: 612
last - modified:星期五,2019年4月12日格林尼治时间13:49:36
连接:维生
ETag:“5 cb09770 - 264“
Accept-Ranges:字节


FeedDemon内容采集   JCE BOT/0.1 (BOT) sql注入   CrawlDaddy sql注入   Java内容采集   Jullo内容采集   Feedly内容采集   UniversalFeedParser内容采集   ApacheBench cc攻击器   Swiftbot无用爬的虫   YandexBot无用爬的虫   AhrefsBot无用爬的虫   YisouSpider无用爬虫(已被加州大学神马搜索收购,此蜘蛛可以放开!)   jikeSpider无用爬的虫   MJ12bot无用爬的虫   ZmEu phpmyadmin漏洞扫描   WinHttp采集cc攻击   EasouSpider无用爬的虫   HttpClient tcp攻击   微软URL控制扫描   YYSpider无用爬的虫   活泼的wordpress爆破扫描器   oBot无用爬的虫   Python-urllib内容采集   印地赛车图书馆扫描   FlightDeckReports机器人无用爬的虫   liniguee机器人无用爬虫

<强>

背景:防止第三方引用链接访问我们的图片,消耗服务器资源和网络流量,我们可以在服务器上做防盗链限制。
实现防盗链的方式有两种:参考方式和签名方式。

参考方式实现防盗链

工作模块:ngx_http_referer_module。

作用变量:invalid_referer美元,全局变量。

配置域:服务器位置

配置:

nginx防盗链防爬虫的配置方法