python里bs4的使用方法 - 行业资讯 - 肥雀云_南京肥雀信息技术有限公司

python里bs4的使用方法?这个问题可能是我们日常学习或工作经常见到的。希望通过这个问题能让你收获颇深。下面是小编给大家带来的参考内容,让我们一起来看看吧!

bs4全名BeautifulSoup,是编写python爬虫常用库之一,主要用来解析html标签。

初始化

得到bs4 import BeautifulSoup 　　　　时间=soup BeautifulSoup (“& lt; html> A Html Text“,,“html.parser")

两个参数:第一个参数是要解析的html文本,第二个参数是使用那种解析器,对于html来讲就是html。解析器,这个是bs4自带的解析器。如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的。

python里bs4的使用方法

<强>对象

Beautfiful汤将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是python对象,所有对象可以归纳为4种:标签,NavigableString, BeautifulSoup,置评。

<强>标记

标记对象与XML或HTML原生文档中的标签相同。

soup =, BeautifulSoup (& # 39; & lt; b 类=癰oldest"祝辞Extremely bold & # 39;) 　　　　tag =soup.b 　　　　类型(标签) 　　　　#,& lt; class & # 39; bs4.element.Tag& # 39;在

如果不存在,则返回没有,如果存在多个,则返回第一个。

每个标签都有自己的名字

tag.name 　　#,& # 39;b # 39;

标记属性的属性是一个字典

标记(& # 39;类# 39;】　　#,& # 39;大胆# 39; 　　　　tag.attrs 　　#,{& # 39;类# 39;:,& # 39;大胆# 39;} 　　　　类型(tag.attrs) 　　#,& lt; class & # 39; dict # 39;在

两点注意事项

1,python3不再有urllib2,取而代之的是urllib.request,因此把在Python2中使用urllib2的地方全部替代为urllib.request即可　　2,得到BeautifulSoup import BeautifulSoup 总是会出错,替换为得到bs4 import BeautifulSoup即可

当然,文档的节点不止这些,还有其他很多的节点。