小编给大家分享一下Beautiful Soup库的使用方法,希望大家阅读完这篇文章后大所收获、下面让我们一起去探讨吧!
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful汤会帮你节省数小时甚至数天的工作时间。
<强> 1。安装强>
以下都是在python2.7中进行测试的。
可以直接使用脉冲安装:
,美元pip install beautifulsoup4
BeautifulSoup不仅支持HTML解析器,还支持一些第三方的解析器,如,lxml, XML, html5lib但是需要安装相应的库。
,美元pip install lxml 美元,pip install  html5lib
<强> 2。开始使用强>
Beautiful Soup的功能相当强大,但我们只介绍经常使用的功能。
<强>简单用法强>
将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象,可以传入一段字符串或一个文件句柄。
在祝辞祝辞,得到bs4 import BeautifulSoup 在祝辞祝辞,soup =, BeautifulSoup (“& lt; html> & lt; body> & lt; p> data & lt;/body> & lt;/html>“) 在祝辞祝辞,汤 & lt; html> & lt; body> & lt; p> data & lt;/body> & lt;/html> 在祝辞祝辞,汤(& # 39;p # 39;) [& lt; p> data</p>]
首先传入一个html文档,汤是获得文档的对象,然后,文档被转换成Unicode,并且html的实例都被转换成Unicode编码。然后,Beautiful soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么美丽的汤会选择指定的解析器来解析文档。但是一般最好手动指定解析器,并且使用请求与BeautifulSoup结合使用,要求是用于爬取网页源码的一个库,此处不再介绍,请求更多用法请参考,请求2.10.0文档。
要解析的文档是什么类型:目前支持,html、xml和html 5
指定使用哪种解析器:目前支持,lxml html5lib和html。解析器
import sys , 重载(系统),, sys.setdefaultencoding (& # 39; utf - 8 # 39;), 得到bs4 import  BeautifulSoup import 请求 时间=html_doc “““ & lt; head> ,,,,,& lt; meta charset=皍tf-8"比; ,,,,,& lt; meta http-equiv=癤-UA-Compatible",内容=癐E=Edge"比; ,,,& lt; title>首页,安康,简书& lt;/title> & lt;/head> & lt; body 类=皁utput  fluid zh cn win reader-day-mode reader-font2 “, data-js-module=皉ecommendation", data-locale=皕h-CN"比; & lt; ul 类=癮rticle-list  thumbnails"比; & lt;才能li 类=have-img> ,,,,,& lt; a 类=皐rap-img" https://www.yisu.com/zixun/, href="/p/49 c4728c3ab2 "> ><类="作者姓名蓝色链接“目标="平等" href="/用户/0 af6b163b687 ">阿随向前冲> 。
<目标="平等" href="/p/49 c4728c3ab2 ">只装了这六款软件, 工作就高效到有时间逛某宝刷某圈>