Beautiful Soup库的使用方法

  介绍

小编给大家分享一下Beautiful Soup库的使用方法,希望大家阅读完这篇文章后大所收获、下面让我们一起去探讨吧!

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful汤会帮你节省数小时甚至数天的工作时间。

<强> 1。安装

以下都是在python2.7中进行测试的。

可以直接使用脉冲安装:

,美元pip  install  beautifulsoup4

BeautifulSoup不仅支持HTML解析器,还支持一些第三方的解析器,如,lxml, XML, html5lib但是需要安装相应的库。

,美元pip  install  lxml   美元,pip  install  html5lib

<强> 2。开始使用

Beautiful Soup的功能相当强大,但我们只介绍经常使用的功能。

<强>简单用法

将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象,可以传入一段字符串或一个文件句柄。

在祝辞祝辞,得到bs4  import  BeautifulSoup   在祝辞祝辞,soup =, BeautifulSoup (“& lt; html> & lt; body> & lt; p> data

& lt;/body> & lt;/html>“)   在祝辞祝辞,汤   & lt; html> & lt; body> & lt; p> data

& lt;/body> & lt;/html>   在祝辞祝辞,汤(& # 39;p # 39;)   [& lt; p> data</p>]

首先传入一个html文档,汤是获得文档的对象,然后,文档被转换成Unicode,并且html的实例都被转换成Unicode编码。然后,Beautiful soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么美丽的汤会选择指定的解析器来解析文档。但是一般最好手动指定解析器,并且使用请求与BeautifulSoup结合使用,要求是用于爬取网页源码的一个库,此处不再介绍,请求更多用法请参考,请求2.10.0文档。

要解析的文档是什么类型:目前支持,html、xml和html 5

指定使用哪种解析器:目前支持,lxml html5lib和html。解析器