介绍
这篇文章主要介绍了Python怎么使用硒+无头chrome获取网页内容,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获、下面让小编带着大家一起了解一下。
使用Python写爬虫时,优选硒,由于PhantomJS因内部原因已经停止更新,最新版的硒已经使用无头chrome替换掉了PhantomJS,所以建议将硒更新到最新版,使用硒+无头chrome
准备工作:
安装铬,铬司机,硒
<强>一、安装chrome 强>
配置百胜下载源,在目录<代码>/etc/yum.repos.d/> 代码下新建文件<代码> google chrome。回购代码>
祝辞cd /ect/yum.repos.d/祝辞,vim google-chrome.repo
编辑<代码> google chrome。回购> 代码,内容如下,保存退出
(google chrome) name=谷歌浏览器 baseurl=http://dl.google.com/linux/chrome/rpm/stable/basearch美元 启用=1 gpgcheck=1 gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub
安装google chrome浏览器:
祝辞,yum -y install google-chrome-stable
PS:谷歌官方源可能在中国无法使用,导致安装失败或者在国内无法更新,可以添加以下参数来安装:
祝辞,yum -y install google-chrome-stable ——nogpgcheck
这样,google chrome即可安装成功。
<强>二、安装chrome司机强>
查看上述安装的铬版本,根据版本选择对应的chrome司机下载,下载之后放到/usr/地方/bin目录
<强>三、安装硒强>
祝辞,pip install 硒
上述准备工作完成后,就可以开始写代码了
得到selenium.webdriver import 铬 得到selenium.webdriver.chrome.options import 选项 时间=options 选项() options.add_argument(& # 39;——无头# 39;) options.add_argument (& # 39;——disable-gpu& # 39;) options.add_argument (& # 39; lang=zh_CN.UTF-8& # 39;) #,在linux上需要添加一下两个参数 options.add_argument (& # 39;——no-sandbox& # 39;) options.add_argument (& # 39;——disable-dev-shm-usage& # 39;) 时间=browser 铬(chrome_options=选项) browser.set_page_load_timeout (30) browser.set_script_timeout (30) browser.get (url) #,获取返回内容 print browser.page_source #,查找元素 print browser.find_element_by_tag_name(& # 39;前# 39;)。文本
备注:如果访问一些详情页有饼干验证,可以先访问主页,然后再访问详情页,webdriver会自动携带饼干
感谢你能够认真阅读完这篇文章,希望小编分享的“Python怎么使用硒+无头chrome获取网页内容”这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!