小编给大家分享一Python爬下虫常用库如何安装及其环境配置,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!
Python常用库的安装
urllib,是这两个库是Python的内置库,直接使用方法导入导入即可。
请求这个库是请求的库。我们需要使用执行文件pip3来进行安装。文件处于C: \ Python36 \脚本下,我们可以先将此路径设为环境变量。在命令行中输入pip3安装请求进行安装。安装完成后进行验证。
在祝辞祝辞import 请求 在祝辞祝辞,requests.get (& # 39; http://www.baidu.com& # 39;) & lt; Response [200]在
selenium 实际上是用来浏览器的一个库,做爬虫时可能会碰到使用JS渲染的网页,使用请求来请求时,可能无法正常获取内容,我们使用硒可以驱动浏览器获得渲染后的页面。也是使用pip3,安装硒安装。进行验证。
在祝辞祝辞import ,硒 在祝辞祝辞,得到selenium import webdriver 在祝辞祝辞,driver =, webdriver.Chrome () DevTools listening 提醒ws://127.0.0.1:60980/devtools/浏览器/7 c2cf211-1a8e-41ea-8e4a-c97356c98910 祝辞祝辞祝辞,driver.get (& # 39; http://www.baidu.com& # 39;)
上述命令可以直接打开铬浏览器,并且打开百度。但是,在这之前我们必须安装一个chromedriver,并且安装googlchrome浏览器,可自行去官网下载。当我们安装完毕后再运行这些测试代码可能依旧会出现一闪而退的情况,那么问题出在,chrome和chromdriver的版本不兼容,可以在官网下载chrome更高的版本,或者chromedriver更低的版本,但是只要都是最高版本就没问题。
phantomjs是一个无界面浏览器,在后台运行。可在官网自行下载。并且需要将phantomjs。exe,的所在目录设为环境变量。测试代码。
在祝辞祝辞,得到selenium import webdriver 在祝辞祝辞,driver =, webdriver.PhantomJS () 在祝辞祝辞,driver.get (& # 39; http://www.baidu.com& # 39;) 在祝辞祝辞driver.page_source & # 39;& lt; DOCTYPE html> & lt; !——STATUS 好的——祝辞& lt; html> & lt; head> \ n
lxml 使用pip3安装lxml安装。
beautifulsoup是一个网络解析库,依赖于lxml库。使用pip3安装。必须安装pip3安装beautifulsoup4,因为beautifulsoup已经停止维护了。安装验证。
在祝辞祝辞,得到bs4 import beautifulsoup 祝辞祝辞祝辞,soup =, BeautifulSoup (& # 39; & lt; html> & lt;/html> & # 39;, & # 39; lxml # 39;) 祝辞祝辞祝辞
pyquery 也是网页解析库,较bs4更加方便,语法和Jquery无异也。是使用pip3安装。
在祝辞祝辞,得到pyquery import pyquery as pq ,, #将其重命名 在祝辞祝辞,doc =, pq (& # 39; & lt; html> & lt;/html> & # 39;) 在祝辞祝辞,doc =, pq (& # 39; & lt; html> hello world