介绍
这篇文章给大家介绍使用python爬虫怎么增加访问量,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
import urllib.request import 时间 #,使用build_opener()是为了让python程序模仿浏览器进行访问 时间=opener urllib.request.build_opener () opener.addheaders =,((& # 39;用户代理# 39;,,& # 39;Mozilla/5.0 & # 39;)) #,专刷某个页面 打印(& # 39;开始刷了哦:& # 39;) 时间=tempUrl & # 39; https://blog.csdn.net/Lin_QC/article/details/88966839& # 39; for j 拷贝范围(2000): 尝试才能: ,,,opener.open (tempUrl) ,,,time . sleep (7) ,,,print (& # 39; % d % & # 39;, %, (j, tempUrl)) except 才能;urllib.error.HTTPError: ,,,print (& # 39; urllib.error.HTTPError& # 39;) ,,,time . sleep (1) except 才能;urllib.error.URLError: ,,,print (& # 39; urllib.error.URLError& # 39;) ,,,time . sleep (1)
该代码主要就是利用爬虫打开网页来进行访问量的刷新,但是,该方法遇到了瓶颈,当刷新到一定访问量时,csdn的服务器会阻止该ip的访问,也就刷新不了访问量了。
所以,也就衍生了第二版。
我们可以在,https://www.xicidaili.com网站上看到很多代理ip、使用这些代理ip,可以防止csdn服务器阻止访问。
首先,编写了一个获取代理ip的文件,经我本人实验,国内http代理ip较为稳定,所以我们爬取
& # 39; https://www.xicidaili.com/wt/1
页面的代理ip信息,并将它们存储在代理文件里,以下代码是基于python2的,注意不要弄错版本
proxy_IP。py文件
import urllib2 import BeautifulSoup 时间=User_Agent & # 39; Mozilla/5.0, (Windows NT 6.3;, WOW64;,房车:43.0),壁虎/20100101,Firefox/43.0 & # 39; header =, {} 头(& # 39;用户代理# 39;],=User_Agent 时间=url & # 39; https://www.xicidaili.com/wt/1& # 39; 时间=req urllib2.Request (url,头=头) 时间=res urllib2.urlopen(点播).read () 时间=soup BeautifulSoup.BeautifulSoup (res) 时间=ips soup.findAll (& # 39; tr # 39;) f =,开放(“proxy",,“w") for x 拷贝范围(len (ips)): ip 才能=,ips [x] 时间=tds 才能;ip.findAll (“td") ip_temp 才能=,tds [1] .contents [0] +“,“+ tds [2] .contents [0] +“\ n" print 才能tds [1] .contents [0] +“\ t" + tds [2] .contents [0] f.write才能(ip_temp)
通过执行以上代码,我们就可以获得大量代理ip,接下来就是使用这些ip进行对博客的访问。
csdnfake。py
import urllib2 import 套接字 import 时间 import 随机 socket.setdefaulttimeout (3) user_agent_list =, ( & # 39;才能Mozilla/5.0, (Windows NT 6.1;, WOW64), AppleWebKit/537.36, (KHTML, like 壁虎),& # 39; ,,,,,,,,,,& # 39;Chrome/45.0.2454.85 Safari/537.36, 115浏览器/6.0.3& # 39; & # 39;才能Mozilla/5.0,(麦金塔电脑,,你,,Intel Mac OS X 10 _6_8;, en - us), AppleWebKit/534.50, (KHTML, like 壁虎),版本/5.1,Safari/534.50 & # 39; & # 39;才能Mozilla/5.0, (Windows;,你,,Windows NT 6.1;, en - us), AppleWebKit/534.50, (KHTML, like 壁虎),版本/5.1,Safari/534.50 & # 39; & # 39;才能Mozilla/4.0,(兼容;,MSIE 8.0;, Windows NT 6.0;,三叉戟/4.0)& # 39;, & # 39;才能Mozilla/4.0,(兼容;,MSIE 7.0;, Windows NT 6.0) & # 39;, & # 39;才能Mozilla/5.0, (Windows NT 6.1;,房车:2.0.1),壁虎/20100101,Firefox/4.0.1 # 39; & # 39;才能歌剧/9.80,(Windows NT 6.1;, U;, en),转眼间/2.8.131 版本/11.11 & # 39; & # 39;才能Mozilla/5.0, (Macintosh;, Intel Mac OS X 10 _7_0), AppleWebKit/535.11, (KHTML, like 壁虎),Chrome/17.0.963.56 Safari/535.11 & # 39; & # 39;才能Mozilla/4.0,(兼容;,MSIE 7.0;, Windows NT 5.1;,三叉戟/4.0;,SE 2. x MetaSr 1.0;, SE 2. x MetaSr 1.0;, .NET CLR 2.0.50727;, SE 2. x MetaSr 1.0) & # 39;, & # 39;才能Mozilla/5.0,(兼容;,MSIE 9.0;, Windows NT 6.1;,三叉戟/5.0 & # 39;, & # 39;才能Mozilla/5.0, (Windows NT 6.1;,房车:2.0.1),壁虎/20100101,Firefox/4.0.1 # 39; ] 时间=f 开放(“proxy") 时间=lines f.readlines () 时间=proxys [] , for 小姐:拷贝范围(0,len()行): ip =,才能行[我].strip () .split (“”) proxy_host =,才能“http://" + ip [0] +“:“+ ip [1] print 才能“http://" + ip [0] +“:“+ ip [1] proxy_temp 才能=,{“http": proxy_host} proxys.append才能(proxy_temp) urls =, {“https://blog.csdn.net/Lin_QC/article/details/88966839" ,,,“https://blog.csdn.net/Lin_QC/article/details/88930018" null null null null null null null null null null null null null null null null null null null null null null null null使用python爬虫怎么增加访问量