HTMLParser模块怎么在python中使用 - 行业资讯 - 肥雀云

　　介绍

今天就跟大家聊聊有关HTMLParser模块怎么在python中使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

安装:

npm install HTMLParser

<强> HTMLParser提供构造函数:

function 解析器(处理器),{ 　　this._handler =,才能处理程序; 　　}

<>强HTMLParser解析HTML:

得到html.parser import HTMLParser 　　得到html.entities import name2codepoint 　　class MyHTMLParser (HTMLParser): 　　def 才能;handle_starttag(自我,,标签,attrs): 　　,,,print (& # 39; & lt; % s> & # 39;, %,标签) 　　def 才能handle_endtag(自我,,标签): 　　,,,print (& # 39; & lt;/% s> & # 39;, %,标签) 　　def 才能;handle_startendtag(自我,,标签,attrs): 　　,,,print (& # 39; & lt; % s/祝辞& # 39;,%,标签) 　　def 才能handle_data(自我,,数据): 　　,,,印刷(数据) 　　def 才能handle_comment(自我,,数据): 　　,,,print (& # 39; & lt; !——& # 39;,,数据,& # 39;——祝辞& # 39;) 　　def 才能handle_entityref(自我,,名字): 　　,,,print (& # 39;, % s; & # 39;, %,名称) 　　def 才能handle_charref(自我,,名字): 　　,,,print (& # 39;, # % s; & # 39;, %,名称) 　　时间=parser MyHTMLParser () 　　parser.feed (& # 39; & # 39; & # 39; & lt; html> 　　& lt; head> & lt;/head> 　　& lt; body> 　　& lt; !——, test html parser ——比; 　　& lt;才能p> Some & lt; https://www.yisu.com/a href=" #/"> html html教程结束。

　　 ”)

html本质上是XML的子集,但是html的语法没有XML那么严格,大家也可以尝试利用HTMLParser解析html。

知识点扩展:

<强>常用方法介绍

<强> l饲料(数据):主要用于接受带html标签的str,当调用这个方法时并提供相应的数据时,整个实例(实例)开始执行,结束执行关闭()。

<强> l handle_starttag(标签,attrs): 这个方法接收Parse_starttag返回的标签和attrs,并进行处理,处理方式通常由使用者进行覆盖,本身为空。

例如,连接的开始标记是& lt; a>,那么对应的参数标签=& # 39;一个# 39;(小写).attrs是开始标签& lt;祝辞中的属性,以元组形式(名称、值)返回(所有这些内容都是小写)。

例如,对于& lt; https://www.yisu.com/zixun/A HREF=" http://www.baidu.com ">,那么内部调用形式为:handle_starttag (“A”, (“HREF”、“http://www.baidu.com)])。

<强> l handle_endtag(标签):跟上述一样,只是处理的是结束标签,也就是以& lt;/开头的标签。

<强> l handle_data(数据):强处理的是网页的数据,也就是开始标签和结束标签之间的内容,例如:& lt; script>……& lt;/script>的省略号内容

l handle_comment(数据),处理注释,& lt; !- - - - -祝辞之间的文本

<强> l重置():将实例重置,包括作为参数输入的数据进行清空。

看完上述内容,你们对HTMLParser模块怎么在python中使用有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。