使用python怎么对html进行过滤 - 行业资讯 - 肥雀云

　　介绍

本篇文章给大家分享的是有关使用python怎么对html进行过滤,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

<>强如下所示:

# #过滤html中的标签　　#将HTML中标签等信息去掉　　# @param htmlstr HTML字符串。　　def filter_tags (htmlstr): 　　,#先过滤CDATA 　　,re_cdata=https://www.yisu.com/zixun/re.compile ('//] *//]]>”, re.I) #匹配CDATA 　　]*> [^ <]* ', re.I) #脚本　　]*> [^ <]* ', re.I) #风格　　re_br=re.compile (“
') #处理换行　　re_h=re.compile (“] *>”) # HTML标签　　re_comment=re.compile (“] *>”) # HTML注释　　re_stopwords=re.compile (\ u3000) #去除无用的‘\ u3000’字符　　s=re_cdata.sub (“htmlstr) #去掉CDATA=re_script.sub(年代)#去掉脚本=re_style.sub(年代)#去掉风格　　s=re_br.sub (' \ n ' s) #将br转换为换行=re_h.sub(年代)#去掉HTML标签=re_comment.sub(年代)#去掉HTML注释=re_stopwords.sub(年代) 　　#去掉多余的空行　　blank_line=re.compile (“\ n +”) 　　s=blank_line.sub (' \ n ' s) 　　s=replaceCharEntity (s) #替换实体　　返回年代　　　　# #替换常用HTML字符实体。　　#使用正常的字符替换HTML中特殊的字符实体。　　#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多的HTML字符实体。　　# @param htmlstr HTML字符串。　　def replaceCharEntity (htmlstr): 　　CHAR_ENTITIES={“盼”:',' 160 ':' ', 　　“lt”:“<薄ⅰ?0”:“<? 　　“gt”:“>”,“62”:“>”, 　　“安保”:“&”,“38”:“&”, 　　”““:”“34”、“‘:’”,} 　　　　re_charEntity=re.compile (r & # ? (? P <名称> \ w +);”) 　　深圳=re_charEntity.search (htmlstr) 　　而深圳: 　　实体=sz.group() #实体全称,如> 　　关键=sz.group(“名字”)#去除&;后实体,如>为gt 　　试一试: 　　htmlstr=re_charEntity.sub (CHAR_ENTITIES(关键),htmlstr, 1) 　　深圳=re_charEntity.search (htmlstr) 　　除了KeyError: 　　#以空串代替　　htmlstr=re_charEntity.sub (“htmlstr, 1) 　　深圳=re_charEntity.search (htmlstr) 　　返回htmlstr Python主要用来做什么

Python主要应用于:1,网络开发;2、数据科学研究;3,网络爬虫;4、嵌入式应用开发,5日游戏开发;6桌面应用开发。

以上就是使用Python怎么对html进行过滤,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。