beautifulsoup库怎么在python中使用 - 行业资讯 - 肥雀云

　　介绍

今天就跟大家聊聊有关beautifulsoup库怎么在python中使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

1。BeautifulSoup库简介

BeautifulSoup库在python中被美其名为“靓汤”,它和和lxml一样也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据.BeautifulSoup支持python标准库中的HTML解析器,还支持一些第三方的解析器,若在没用安装此库的情况下,python会使用python默认的解析器lxml, lxml解析器更加强大,速度更快,而BeautifulSoup库中的lxml解析器则是集成了单独的lxml的特点,使得功能更加强大。

需要注意的是,美丽的汤已经自动将输入文档转换为Unicode编码,输出文档转换为utf - 8编码。因此在使用它的时候不需要考虑编码方式,仅仅需要说明一下原始编码方式就可以了。

使用pip命令工具安装BeautifulSoup4库

pip install 小姐;https://pypi.tuna.tsinghua.edu.cn/simple/ BeautifulSoup #,使用清华大学镜像源安装

2。BeautifulSoup库的主要解析器

在代码中<代码> html。解析器代码是一种针对于html网页页面的解析器,Beautiful Soup库还有其他的解析器,用于针对不同的网页

demo =, & # 39; https://www.baidu.com& # 39; 　　soup =, BeautifulSoup(演示,& # 39;html.parser& # 39;) 解析器使用方法条件bs4的html解析器BeautifulSoup(演示,“html.parser& # 39;)安装bs4库lxml的html解析器BeautifulSoup(演示,lxml # 39;) pip安装lxmllxml的xml解析器BeautifulSoup(演示,“xml # 39;) pip安装lxmlhtml5lib的解析器BeautifulSoup(演示,“html5lib& # 39;) pip安装html5lib

3。BeautifulSoup的简单使用

假如有一个简单的网页,提取百度搜索页面的一部分源代码为例

& lt; ! DOCTYPE html> 　　& lt; html> 　　& lt; head> 　　,& lt; meta 内容=皌ext/html; charset=utf-8", http-equiv=癱ontent-type",/比; 　　,& lt; meta 内容=癐E=Edge", http-equiv=癤-UA-Compatible",/比; 　　,& lt; meta 内容=癮lways", name=皉eferrer",/比; 　　& lt;链接　　href=https://www.yisu.com/zixun/https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min。　　css样式表" rel=" " type=" text/css "/> 　　<标题>百度一下,你就知道　　头　　<身体链接=" # 0000 cc”> 　　

　　新闻　　　　网址之家　　地图　　视频　　贴吧　　　　更多产品　　

结合请求库和使用BeautifulSoup库的html解析器,对其进行解析有如下

import 请求　　得到bs4 import BeautifulSoup 　　　　#,使用请求库加载页面代码　　时间=r requests.get (& # 39; https://www.baidu.com& # 39;) 　　r.raise_for_status(),, #,状态码返回　　r.encoding =r.apparent_encoding 　　demo =r.text 　　　　#,使用BeautifulSoup库解析代码　　soup =, BeautifulSoup(演示,& # 39;html.parser& # 39;),, #,使用html的解析器　　　　print (soup.prettify ()),,, #, prettify 方式输出页面

& lt; p 祝辞,…,& lt;/p> <李>