Python怎么使用硒+无头chrome获取网页内容

  介绍

这篇文章主要介绍了Python怎么使用硒+无头chrome获取网页内容,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获、下面让小编带着大家一起了解一下。

使用Python写爬虫时,优选硒,由于PhantomJS因内部原因已经停止更新,最新版的硒已经使用无头chrome替换掉了PhantomJS,所以建议将硒更新到最新版,使用硒+无头chrome

准备工作:

安装铬,铬司机,硒

<强>一、安装chrome

配置百胜下载源,在目录<代码>/etc/yum.repos.d/> google chrome。回购

祝辞cd /ect/yum.repos.d/祝辞,vim  google-chrome.repo

编辑<代码> google chrome。回购> (google chrome)   name=谷歌浏览器   baseurl=http://dl.google.com/linux/chrome/rpm/stable/basearch美元   启用=1   gpgcheck=1   gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub

安装google chrome浏览器:

祝辞,yum  -y  install  google-chrome-stable

PS:谷歌官方源可能在中国无法使用,导致安装失败或者在国内无法更新,可以添加以下参数来安装:

祝辞,yum  -y  install  google-chrome-stable ——nogpgcheck

这样,google chrome即可安装成功。

<强>二、安装chrome司机

查看上述安装的铬版本,根据版本选择对应的chrome司机下载,下载之后放到/usr/地方/bin目录

<强>三、安装硒

祝辞,pip  install 硒

上述准备工作完成后,就可以开始写代码了

得到selenium.webdriver  import 铬   得到selenium.webdriver.chrome.options  import 选项         时间=options 选项()   options.add_argument(& # 39;——无头# 39;)   options.add_argument (& # 39;——disable-gpu& # 39;)   options.add_argument (& # 39; lang=zh_CN.UTF-8& # 39;)      #,在linux上需要添加一下两个参数   options.add_argument (& # 39;——no-sandbox& # 39;)   options.add_argument (& # 39;——disable-dev-shm-usage& # 39;)      时间=browser 铬(chrome_options=选项)   browser.set_page_load_timeout (30)   browser.set_script_timeout (30)   browser.get (url)      #,获取返回内容   print  browser.page_source      #,查找元素   print  browser.find_element_by_tag_name(& # 39;前# 39;)。文本

备注:如果访问一些详情页有饼干验证,可以先访问主页,然后再访问详情页,webdriver会自动携带饼干

感谢你能够认真阅读完这篇文章,希望小编分享的“Python怎么使用硒+无头chrome获取网页内容”这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!

Python怎么使用硒+无头chrome获取网页内容