beautifulsoup库怎么在python中使用

  介绍

今天就跟大家聊聊有关beautifulsoup库怎么在python中使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

1。BeautifulSoup库简介

BeautifulSoup库在python中被美其名为“靓汤”,它和和lxml一样也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据.BeautifulSoup支持python标准库中的HTML解析器,还支持一些第三方的解析器,若在没用安装此库的情况下,python会使用python默认的解析器lxml, lxml解析器更加强大,速度更快,而BeautifulSoup库中的lxml解析器则是集成了单独的lxml的特点,使得功能更加强大。

需要注意的是,美丽的汤已经自动将输入文档转换为Unicode编码,输出文档转换为utf - 8编码。因此在使用它的时候不需要考虑编码方式,仅仅需要说明一下原始编码方式就可以了。

使用pip命令工具安装BeautifulSoup4库

pip  install 小姐;https://pypi.tuna.tsinghua.edu.cn/simple/  BeautifulSoup  #,使用清华大学镜像源安装

2。BeautifulSoup库的主要解析器

在代码中<代码> html。解析器代码是一种针对于html网页页面的解析器,Beautiful Soup库还有其他的解析器,用于针对不同的网页

demo =, & # 39; https://www.baidu.com& # 39;   soup =, BeautifulSoup(演示,& # 39;html.parser& # 39;) 解析器使用方法条件bs4的html解析器BeautifulSoup(演示,“html.parser& # 39;)安装bs4库lxml的html解析器BeautifulSoup(演示,lxml # 39;) pip安装lxmllxml的xml解析器BeautifulSoup(演示,“xml # 39;) pip安装lxmlhtml5lib的解析器BeautifulSoup(演示,“html5lib& # 39;) pip安装html5lib

3。BeautifulSoup的简单使用

假如有一个简单的网页,提取百度搜索页面的一部分源代码为例

& lt; ! DOCTYPE  html>   & lt; html>   & lt; head>   ,& lt; meta 内容=皌ext/html; charset=utf-8", http-equiv=癱ontent-type",/比;   ,& lt; meta 内容=癐E=Edge", http-equiv=癤-UA-Compatible",/比;   ,& lt; meta 内容=癮lways", name=皉eferrer",/比;   & lt;链接   href=https://www.yisu.com/zixun/https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min。   css样式表" rel=" " type=" text/css "/>   <标题>百度一下,你就知道   头   <身体链接=" # 0000 cc”>         

结合请求库和使用BeautifulSoup库的html解析器,对其进行解析有如下

import 请求   得到bs4  import  BeautifulSoup      #,使用请求库加载页面代码   时间=r  requests.get (& # 39; https://www.baidu.com& # 39;)   r.raise_for_status(),, #,状态码返回   r.encoding =r.apparent_encoding   demo =r.text      #,使用BeautifulSoup库解析代码   soup =, BeautifulSoup(演示,& # 39;html.parser& # 39;),, #,使用html的解析器      print (soup.prettify ()),,, #, prettify 方式输出页面

 beautifulsoup库怎么在python中使用“> </p> <h3> 4。BeautifuSoup的类的基本元素</h3> <p> BeautifulSoup4将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,BeautifulSoup库有针对于HTML的标签数的特定元素,重点有如下三种</p> <pre类= & lt; p 祝辞,…,& lt;/p> <李>

标记

<李>

NavigableString

<李>

评论<李>

BeautifulSoup

基本元素说明标签标签,最基本的信息组织单元,分别用& lt;祝辞和& lt;/祝辞标明开头和结尾,格式:soup.a或者soup.p(获取一个标签中或者p标签中的内容)名称标签的名字,

的名字是“p # 39;格式为:.nameAttributes标签的属性,字典形式组织,格式:.attrsNavigableString标签内非属性字符串,& lt;在…& lt;/祝辞中的字符串,格式:.stringComment标签内的字符串的注释部分,一种特殊的评论类型

beautifulsoup库怎么在python中使用