Java中正则表达式去除html标签 - 行业资讯 - 肥雀云

Java中正则表达式去除html的标签,主要目的更精确的显示内容,比如前一段时间在做类似于博客中发布文章功能,当编辑器中输入内容后会将样式标签也传入后台并且保存数据库,但是在显示摘要的时候,比如显示正文的前50个字作为摘要,那么这时需要去除所有html标签,然后在截取50字,所以就通过了Java正则表达式实现了如下方法,代码如下:

,,,

　　　　　　私有静态最终字符串regEx_script=" & lt;脚本(^祝辞)* & # 63;祝辞(\ \ \ \年代)* & # 63;& lt; \ \/script>”;//定义脚本的正则表达式　　私有静态最终字符串regEx_style=" & lt;风格[^祝辞)* & # 63;祝辞(\ \ \ \年代)* & # 63;& lt; \ \/style>”;//定义风格的正则表达式　　私有静态最终字符串regEx_html=" & lt;[^祝辞]+祝辞”;//定义HTML标签的正则表达式　　私有静态最终字符串regEx_space=" \ \ s * | \ t | | \ r \ n”;//定义空格回车换行符　　私有静态最终字符串regEx_w=" & lt; w[^祝辞)* & # 63;祝辞(\ \ \ \年代)* & # 63;& lt; \ \/w(^的在)* & # 63;在“;//定义所有w标签/* * 　　* @param htmlStr 　　* @return删除Html标签　　* @author龙津　　*/delHTMLTag公共静态字符串(字符串htmlStr) { 　　模式p_w=Pattern.compile (regEx_w Pattern.CASE_INSENSITIVE); 　　匹配器m_w=p_w.matcher (htmlStr); 　　htmlStr=m_w.replaceAll (" ");//过滤脚本标签　　模式p_script=Pattern.compile (regEx_script Pattern.CASE_INSENSITIVE); 　　匹配器m_script=p_script.matcher (htmlStr); 　　htmlStr=m_script.replaceAll (" ");//过滤脚本标签　　模式p_style=Pattern.compile (regEx_style Pattern.CASE_INSENSITIVE); 　　匹配器m_style=p_style.matcher (htmlStr); 　　htmlStr=m_style.replaceAll (" ");//过滤风格标签　　模式p_html=Pattern.compile (regEx_html Pattern.CASE_INSENSITIVE); 　　匹配器m_html=p_html.matcher (htmlStr); 　　htmlStr=m_html.replaceAll (" ");//过滤html标签　　模式p_space=Pattern.compile (regEx_space Pattern.CASE_INSENSITIVE); 　　匹配器m_space=p_space.matcher (htmlStr); 　　htmlStr=m_space.replaceAll (" ");//过滤空格回车标签　　htmlStr=htmlStr。replaceAll (" ", " ");//过滤　　返回htmlStr.trim ();//返回文本字符串　　} 　　　　

ps:方法仅供参考,供大家一起互相学习,若有不足或者疑问欢迎评论。