介绍
今天就跟大家聊聊有关beautifulsoup库怎么在python中使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
1。BeautifulSoup库简介
BeautifulSoup库在python中被美其名为“靓汤”,它和和lxml一样也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据.BeautifulSoup支持python标准库中的HTML解析器,还支持一些第三方的解析器,若在没用安装此库的情况下,python会使用python默认的解析器lxml, lxml解析器更加强大,速度更快,而BeautifulSoup库中的lxml解析器则是集成了单独的lxml的特点,使得功能更加强大。
需要注意的是,美丽的汤已经自动将输入文档转换为Unicode编码,输出文档转换为utf - 8编码。因此在使用它的时候不需要考虑编码方式,仅仅需要说明一下原始编码方式就可以了。
使用pip命令工具安装BeautifulSoup4库
pip install 小姐;https://pypi.tuna.tsinghua.edu.cn/simple/ BeautifulSoup #,使用清华大学镜像源安装
2。BeautifulSoup库的主要解析器
在代码中<代码> html。解析器代码>是一种针对于html网页页面的解析器,Beautiful Soup库还有其他的解析器,用于针对不同的网页
demo =, & # 39; https://www.baidu.com& # 39; soup =, BeautifulSoup(演示,& # 39;html.parser& # 39;)解析器使用方法条件bs4的html解析器BeautifulSoup(演示,“html.parser& # 39;)安装bs4库lxml的html解析器BeautifulSoup(演示,lxml # 39;) pip安装lxmllxml的xml解析器BeautifulSoup(演示,“xml # 39;) pip安装lxmlhtml5lib的解析器BeautifulSoup(演示,“html5lib& # 39;) pip安装html5lib
3。BeautifulSoup的简单使用
假如有一个简单的网页,提取百度搜索页面的一部分源代码为例
& lt; ! DOCTYPE html> & lt; html> & lt; head> ,& lt; meta 内容=皌ext/html; charset=utf-8", http-equiv=癱ontent-type",/比; ,& lt; meta 内容=癐E=Edge", http-equiv=癤-UA-Compatible",/比; ,& lt; meta 内容=癮lways", name=皉eferrer",/比; & lt;链接 href=https://www.yisu.com/zixun/https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min。 css样式表" rel=" " type=" text/css "/> <标题>百度一下,你就知道名称> >头 <身体链接=" # 0000 cc”> 身体>