在Python爬虫过程中怎么使用代理IP

  介绍

这篇文章主要介绍了在Python爬虫过程中怎么使用代理IP,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获、下面让小编带着大家一起了解一下。

Python是什么意思

Python是一种跨平台的,具有解释性,编译性,互动性和面向对象的脚本语言,其最初的设计是用于编写自动化脚本,随着版本的不断更新和新功能的添加,常用于用于开发独立的项目和大型项目。

许多网站会在一定时间内检测到某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多得不像正常的人,就会禁止该IP的访问。因此,我们可以设置一些代理服务器,每隔一段时间更换一个代理,即使IP被禁止,仍然可以更换IP继续爬行。

<强> 1,设置代理服务器

通过ProxyHandler在请求中设置使用代理服务器,代理的使用非常简单,可以在专业网站上购买稳定的IP地址,也可以在网上寻找免费的IP代理。

免费开放代理基本没有成本。我们可以在一些代理网站上收集这些免费代理。如果测试后可以使用,我们可以在爬虫上收集它们。

<强> 2,硒使用代理IP

硒在使用带有用户名和密码的代理IP时,不能使用无头模式。

 def  create_proxy_auth_extension (proxy_host, proxy_port,
  ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,proxy_username proxy_password,
  ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,计划=& # 39;http # 39;,, plugin_path=None):
  ,,,if  plugin_path  is 没有:
  ,,,,,,,plugin_path =, " # 39;。/proxy_auth_plugin.zip& # 39;
  ,
  ,,,manifest_json =,“““
  ,,,,,,,{
  ,,,,,,,,,,,“version":,“1.0.0"
  ,,,,,,,,,,,“manifest_version":, 2,
  ,,,,,,,,,,,“name":,“Chrome  Proxy"
  ,,,,,,,,,,,“permissions":,
  ,,,,,,,,,,,,,,,“proxy",
  ,,,,,,,,,,,,,,,“tabs",
  ,,,,,,,,,,,,,,,“unlimitedStorage",
  ,,,,,,,,,,,,,,,“storage",
  ,,,,,,,,,,,,,,,“& lt; all_urls>“
  ,,,,,,,,,,,,,,,“webRequest",
  ,,,,,,,,,,,,,,,“webRequestBlocking"
  ,,,,,,,,,,,,
  ,,,,,,,,,,,“background":, {
  ,,,,,,,,,,,,,,,“scripts":, (“background.js")
  ,,,,,,,,,,,},
  ,,,,,,,,,,,“minimum_chrome_version":“22.0.0"
  ,,,,,,,}
  ,,,,,,,,,,
  ,
  ,,,background_js =,均(
  ,,,,,,,,,,
  ,,,,,,,var  config =, {
  ,,,,,,,,,,,模式:,“fixed_servers",
  ,,,,,,,,,,,规则:,{
  ,,,,,,,,,,,,,,,singleProxy:, {
  ,,,,,,,,,,,,,,,,,,,方案:,“${计划}“,
  ,,,,,,,,,,,,,,,,,,,主持人:,“${主机}“,
  ,,,,,,,,,,,,,,,,,,,端口:,方法(${港口})
  ,,,,,,,,,,,,,,,},
  ,,,,,,,,,,,,,,,bypassList:, (“foobar.com")
  ,,,,,,,,,,,}
  ,,,,,,,,,};
  ,
  ,,,,,,,chrome.proxy.settings.set({值:,配置,,范围:,“regular"},,()函数,{});
  ,
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null
  null

在Python爬虫过程中怎么使用代理IP