python反爬虫策略是什么 - 行业资讯 - 肥雀云

介绍

这篇文章主要介绍python反爬虫策略是什么,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

1,从用户请求的头反爬虫是最常见的反爬虫策略。

伪装头。很多网站都会对头部的用户代理进行检测,还有一部分网站会对推荐人进行检测(一些资源网站的防盗链就是检测Referer)。如果遇到了这类反爬虫机制,可以直接在爬虫中添加标题,将浏览器的用户代理复制到爬虫的头文件中,或者将推荐人值修改为目标网站域名[评论:往往容易被忽略,通过对请求的抓包分析,确定推荐人,在程序中模拟访问请求头中添加]。对于检测头的反爬虫,在爬虫中修改或者添加标题就能很好的绕过。

2,基于用户行为反爬虫

还有一部分网站是通过检测用户行为,例如:同一IP短时间内多次访问同一页面,或者同一账户短时间内多次进行相同操作。这种防爬,需要有足够多的IP来应对。

大多数网站都是前一种情况,对于这种情况,使用IP代理就可以解决。可以专门写一个爬虫,爬取网上公开的代理IP,检测后全部保存起来。有了大量代理IP后可以每请求几次更换一个IP,这在请求或者urllib中很容易做的到,这样就能很容易的绕过第一种反爬虫。

<强>编写爬虫代理:

步骤:

1。参数是一个字典{& # 39;类型& # 39;:& # 39;代理IP:端口号& # 39;}

proxy_support=urllib.request.ProxyHandler ({})

2。定制,创建一个刀

刀=urllib.request.build_opener (proxy_support)

3。安装刀

urllib.request.install_opener(刀)

4。调用刀