介绍
小编给大家分享一Python爬下虫中获取Ajax方式加载数据的方法,希望大家阅读完这篇文章后大所收获、下面让我们一起去探讨吧!
<强>获取Ajax方式加载的数据强>
爬虫最需要关注的不是页面信息,而是页面信息的数据来源。
Ajax方式加载的页面,数据来源一定是JSON,直接对Ajax地址进行post或get、拿到JSON,就是拿到了网页数据。
(1)先通过浏览器访问豆瓣电影排行榜
https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85& type=11, interval_id=100:90& action=
(2)浏览器访问后,通过抓包工具就可以获取我们想要的一些信息。
只里要响应面有JSON数据,我们就可以找到服务器的数据来源。
分析发现变动的是开始值和极限值,类型,interval_id,行动,固定不变,这三个网址中已经包含了,所以formdata只用传和限制开始。
import urllib import urllib2 时间=url & # 39; https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85& type=11, interval_id=100:90& action=& # 39; headers =,{& # 39;用户代理# 39;:& # 39;Mozilla/5.0, (Windows NT 6.1;, Win64;, x64), AppleWebKit/537.36, (KHTML, like 壁虎) Safari, Chrome/60.0.3112.101 /537.36 & # 39;} #,开始和限制可以自己随便设置 formdata =,{& # 39;开始# 39;:& # 39;20 & # 39;,& # 39;限制# 39;:& # 39;100 & # 39;} 时间=data urllib.urlencode (formdata) 时间=request urllib2.Request (url, data =,数据,标题=标题) 时间=response urllib2.urlopen(请求) print response.read ()
看完了这篇文章,相信你对Python爬虫中获取Ajax方式加载数据的方法有了一定的了解,想了解更多相关知识,欢迎关注行业资讯频道,感谢各位的阅读!