Python爬取airbnb房源信息的方法

  介绍

这篇文章将为大家详细讲解有关Python爬取airbnb房源信息的方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

<强>硒介绍

 Python爬取airbnb房源信息的方法

硒是一个用于网络应用程序测试的工具,测试直接在浏览器中运行,就像真实用户所做的一样,目前流行的自动化测试就可以靠它来实现。

<>强而自动化测试还需要用我们的webdriver

webdriver针对各个浏览器而开发,取代了嵌入到被测网络应用中的JavaScript。与浏览器的紧密集成支持创建更高级的测试,避免了JavaScript安全模型导致的限制。除了来自浏览器厂商的支持,webdriver还利用操作系统级的调用模拟用户输入。

今天就是利用这两个结合来爬取airbnb的房源信息

首先我们需要下载我们浏览器对应版本的webdriver,比如我的谷歌版本

 Python爬取airbnb房源信息的方法

铬的webdriver各个版本下载地址:http://npm.taobao.org/mirrors/chromedriver

如果是其他浏览器就直接去百度了

然后下载好了有一个chromedriver.exe文件,把这个文件放入你的Python的脚本中,这样就能用了

 Python爬取airbnb房源信息的方法

支撑材是一个抓包工具,我们如果需要爬取一些动态数据,也就是我们ajax加载出来的数据,我们一般是无法直接在网页上看到的,所以需要通过抓包工具来获取请求地址

支撑材官网:https://www.telerik.com/fiddler

它能获取你电脑所有发送的请求

<强>案例demo1,爬取今日头条的某条新闻的评论

评论一般是ajax加载出来的,所以一般是动态数据,所有首先我们需要通过抓包工具来获取它的请求地址(因为F12获取不到一些数据地址,所以我们需要下载抓包工具),然后才能获取它的数据。

“““   使用sekenium获取今日头条新闻评论   “““   得到selenium  import  webdriver   import 时间=#,options  webdriver.ChromeOptions ()   #,options.add_argument (“——headless")   时间=driver  webdriver.Chrome ()   driver.get (“https://www.toutiao.com/group/6749399264998212110/")   #,获取,加载更多,超链接   时间=loadMore  driver.find_element_by_css_selector (“a.c-load-more")   #,模拟浏览器点击事件   loadMore.click ()   time . sleep (2)   #,获取数据   时间=contentDivs  driver.find_elements_by_css_selector (“div.c-content")   for  contentDiv  contentDivs拷贝:   ,,,content =, contentDiv.find_element_by_tag_name (“p")。text   ,,,print(内容)

然后存入了我们的文本文件中,可以看的到,这就是一个JSON的返回数据

{& # 39;消息# 39;:,& # 39;成功# 39;,,& # 39;数据# 39;:,{& # 39;has_more& # 39;,,真的,,& # 39;总# 39;:,106年,& # 39;评论# 39;:,[{& # 39;文本# 39;:,& # 39;限制的是在北京居住生活而长期   驾驶非京牌车的行为。正常来京办事不受影响。北京车牌到外地也是短期的,所以不存在外地也限制北京车的问题强生的,,,   & # 39;digg_count& # 39;:, 615年,& # 39;reply_data& # 39;:, {& # 39; reply_list& # 39;:, []},, & # 39; reply_count& # 39;:, 0,, & # 39; create_time& # 39;:, 1571398213,, & # 39;用户# 39;:,   {& # 39;avatar_url& # 39;:, & # 39; https://sf1-ttcdn-tos.pstatp.com/img/mosaic-legacy/3796/2975850990 ~ 120 x256.image& # 39;,, & # 39; user_id # 39;:,   100388200396,,& # 39;名字# 39;:,& # 39;人间正道的丝路花雨& # 39;},,& # 39;dongtai_id& # 39;:, & # 39; 6749103925351350275 & # 39;,, & # 39; user_digg& # 39;:, 0,, & # 39; id # 39;:,   & # 39;6749103925351350275 & # 39;},,{& # 39;文本# 39;:,& # 39;支持,早该限制外地牌照,就像北京的房子,外地人来京就租房子,如果您来就盖房这地方   就没办法生活了& # 39;,,& # 39;digg_count& # 39;:, 686年,& # 39;reply_data& # 39;:, {& # 39; reply_list& # 39;:, []},, & # 39; reply_count& # 39;:, 0,, & # 39; create_time& # 39;:, 1571398053,,   & # 39;用户# 39;:,{& # 39;avatar_url& # 39;:, & # 39; https://p3.pstatp.com/thumb/dafd0002dc655e0d9151& # 39;,, & # 39; user_id # 39;:, 52617043834,, & # 39;名字# 39;:,   & # 39;点1449308 & # 39;},,& # 39;dongtai_id& # 39;:, & # 39; 6749103240320647171 & # 39;,, & # 39; user_digg& # 39;:, 0,, & # 39; id # 39;:, & # 39; 6749103240320647171 & # 39;},,{& # 39;文本# 39;:,   & # 39;举双手赞成

Python爬取airbnb房源信息的方法