HTMLParser模块怎么在python中使用

  介绍

今天就跟大家聊聊有关HTMLParser模块怎么在python中使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

安装:

npm  install  HTMLParser

<强> HTMLParser提供构造函数:

function 解析器(处理器),{   this._handler =,才能处理程序;   }

<>强HTMLParser解析HTML:

得到html.parser  import  HTMLParser   得到html.entities  import  name2codepoint   class  MyHTMLParser (HTMLParser):   def 才能;handle_starttag(自我,,标签,attrs):   ,,,print (& # 39; & lt; % s> & # 39;, %,标签)   def 才能handle_endtag(自我,,标签):   ,,,print (& # 39; & lt;/% s> & # 39;, %,标签)   def 才能;handle_startendtag(自我,,标签,attrs):   ,,,print (& # 39; & lt; % s/祝辞& # 39;,%,标签)   def 才能handle_data(自我,,数据):   ,,,印刷(数据)   def 才能handle_comment(自我,,数据):   ,,,print (& # 39; & lt; !——& # 39;,,数据,& # 39;——祝辞& # 39;)   def 才能handle_entityref(自我,,名字):   ,,,print (& # 39;, % s; & # 39;, %,名称)   def 才能handle_charref(自我,,名字):   ,,,print (& # 39;, # % s; & # 39;, %,名称)   时间=parser  MyHTMLParser ()   parser.feed (& # 39; & # 39; & # 39; & lt; html>   & lt; head> & lt;/head>   & lt; body>   & lt; !——, test  html  parser ——比;   & lt;才能p> Some  & lt; https://www.yisu.com/a  href=" #/"> html html教程结束。

   ”)

html本质上是XML的子集,但是html的语法没有XML那么严格,大家也可以尝试利用HTMLParser解析html。

知识点扩展:

<强>常用方法介绍

<强> l饲料(数据):主要用于接受带html标签的str,当调用这个方法时并提供相应的数据时,整个实例(实例)开始执行,结束执行关闭()。

<强> l handle_starttag(标签,attrs): 这个方法接收Parse_starttag返回的标签和attrs,并进行处理,处理方式通常由使用者进行覆盖,本身为空。

例如,连接的开始标记是& lt; a>,那么对应的参数标签=& # 39;一个# 39;(小写).attrs是开始标签& lt;祝辞中的属性,以元组形式(名称、值)返回(所有这些内容都是小写)。

例如,对于& lt; https://www.yisu.com/zixun/A HREF=" http://www.baidu.com ">,那么内部调用形式为:handle_starttag (“A”, (“HREF”、“http://www.baidu.com)])。

<强> l handle_endtag(标签):跟上述一样,只是处理的是结束标签,也就是以& lt;/开头的标签。

<强> l handle_data(数据):强处理的是网页的数据,也就是开始标签和结束标签之间的内容,例如:& lt; script>……& lt;/script>的省略号内容

l handle_comment(数据),处理注释,& lt; !- - - - -祝辞之间的文本

<强> l重置():将实例重置,包括作为参数输入的数据进行清空。

看完上述内容,你们对HTMLParser模块怎么在python中使用有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。

HTMLParser模块怎么在python中使用