使用python怎么对html进行过滤

  介绍

本篇文章给大家分享的是有关使用python怎么对html进行过滤,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

<>强如下所示:

# #过滤html中的标签   #将HTML中标签等信息去掉   # @param  htmlstr  HTML字符串。   def  filter_tags (htmlstr):   ,#先过滤CDATA   ,re_cdata=https://www.yisu.com/zixun/re.compile ('//] *//]]>”, re.I) #匹配CDATA   ]*> [^ <]* ', re.I) #脚本   ]*> [^ <]* ', re.I) #风格   re_br=re.compile (“
') #处理换行   re_h=re.compile (“] *>”) # HTML标签   re_comment=re.compile (“] *>”) # HTML注释   re_stopwords=re.compile (\ u3000) #去除无用的‘\ u3000’字符   s=re_cdata.sub (“htmlstr) #去掉CDATA=re_script.sub(年代)#去掉脚本=re_style.sub(年代)#去掉风格   s=re_br.sub (' \ n ' s) #将br转换为换行=re_h.sub(年代)#去掉HTML标签=re_comment.sub(年代)#去掉HTML注释=re_stopwords.sub(年代)   #去掉多余的空行   blank_line=re.compile (“\ n +”)   s=blank_line.sub (' \ n ' s)   s=replaceCharEntity (s) #替换实体   返回年代      # #替换常用HTML字符实体。   #使用正常的字符替换HTML中特殊的字符实体。   #你可以添加新的实体字符到CHAR_ENTITIES中,处理更多的HTML字符实体。   # @param htmlstr HTML字符串。   def replaceCharEntity (htmlstr):   CHAR_ENTITIES={“盼”:',' 160 ':' ',   “lt”:“<薄ⅰ?0”:“<?   “gt”:“>”,“62”:“>”,   “安保”:“&”,“38”:“&”,   ”““:”“34”、“‘:’”,}      re_charEntity=re.compile (r & # ? (? P <名称> \ w +);”)   深圳=re_charEntity.search (htmlstr)   而深圳:   实体=sz.group() #实体全称,如>   关键=sz.group(“名字”)#去除&;后实体,如>为gt   试一试:   htmlstr=re_charEntity.sub (CHAR_ENTITIES(关键),htmlstr, 1)   深圳=re_charEntity.search (htmlstr)   除了KeyError:   #以空串代替   htmlstr=re_charEntity.sub (“htmlstr, 1)   深圳=re_charEntity.search (htmlstr)   返回htmlstr Python主要用来做什么

Python主要应用于:1,网络开发;2、数据科学研究;3,网络爬虫;4、嵌入式应用开发,5日游戏开发;6桌面应用开发。

以上就是使用Python怎么对html进行过滤,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。

使用python怎么对html进行过滤