Beautiful Soup库的使用方法 - 行业资讯 - 肥雀云

　　介绍

小编给大家分享一下Beautiful Soup库的使用方法,希望大家阅读完这篇文章后大所收获、下面让我们一起去探讨吧!

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful汤会帮你节省数小时甚至数天的工作时间。

<强> 1。安装

以下都是在python2.7中进行测试的。

可以直接使用脉冲安装:

,美元pip install beautifulsoup4

BeautifulSoup不仅支持HTML解析器,还支持一些第三方的解析器,如,lxml, XML, html5lib但是需要安装相应的库。

,美元pip install lxml 　　美元,pip install html5lib

<强> 2。开始使用

Beautiful Soup的功能相当强大,但我们只介绍经常使用的功能。

<强>简单用法

将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象,可以传入一段字符串或一个文件句柄。

在祝辞祝辞,得到bs4 import BeautifulSoup 　　在祝辞祝辞,soup =, BeautifulSoup (“& lt; html> & lt; body> & lt; p> data

& lt;/body> & lt;/html>“) 　　在祝辞祝辞,汤　　& lt; html> & lt; body> & lt; p> data

& lt;/body> & lt;/html> 　　在祝辞祝辞,汤(& # 39;p # 39;) 　　[& lt; p> data</p>]

首先传入一个html文档,汤是获得文档的对象,然后,文档被转换成Unicode,并且html的实例都被转换成Unicode编码。然后,Beautiful soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么美丽的汤会选择指定的解析器来解析文档。但是一般最好手动指定解析器,并且使用请求与BeautifulSoup结合使用,要求是用于爬取网页源码的一个库,此处不再介绍,请求更多用法请参考,请求2.10.0文档。

要解析的文档是什么类型:目前支持,html、xml和html 5

指定使用哪种解析器:目前支持,lxml html5lib和html。解析器

 import  sys ,
　　重载(系统),,
　　sys.setdefaultencoding (& # 39; utf - 8 # 39;),
　　得到bs4  import  BeautifulSoup
　　import 请求
　　时间=html_doc “““
　　& lt; head>
　　,,,,,& lt; meta  charset=皍tf-8"比;
　　,,,,,& lt; meta  http-equiv=癤-UA-Compatible",内容=癐E=Edge"比;
　　,,,& lt; title>首页,安康,简书& lt;/title>
　　& lt;/head>
　　& lt; body 类=皁utput  fluid  zh  cn  win  reader-day-mode  reader-font2 “, data-js-module=皉ecommendation", data-locale=皕h-CN"比;
　　& lt; ul 类=癮rticle-list  thumbnails"比;
　　& lt;才能li 类=have-img>
　　,,,,,& lt; a 类=皐rap-img" https://www.yisu.com/zixun/, href="/p/49 c4728c3ab2 ">  
　　
　　
　　<类="作者姓名蓝色链接“目标="平等" href="/用户/0 af6b163b687 ">阿随向前冲
　　。
　　 
　　
　　 <目标="平等" href="/p/49 c4728c3ab2 ">只装了这六款软件,
　　工作就高效到有时间逛某宝刷某圈 
　　
　　<目标="平等" href="/p/49 c4728c3ab2”>
　　阅读1830
　　Beautiful Soup库的使用方法

			

 上一篇
 下一篇

							
	
									

	
		
	         赞 
	            
	        
		
		
		
	


		
			
				
										
					
				 	隐藏边栏
				

				A+
				
					发布日期：2021年08月19日  所属分类：技术资讯
  标签：