Java中正则表达式去除html标签

  

Java中正则表达式去除html的标签,主要目的更精确的显示内容,比如前一段时间在做类似于博客中发布文章功能,当编辑器中输入内容后会将样式标签也传入后台并且保存数据库,但是在显示摘要的时候,比如显示正文的前50个字作为摘要,那么这时需要去除所有html标签,然后在截取50字,所以就通过了Java正则表达式实现了如下方法,代码如下:

  

,,,

        私有静态最终字符串regEx_script=" & lt;脚本(^祝辞)* & # 63;祝辞(\ \ \ \年代)* & # 63;& lt; \ \/script>”;//定义脚本的正则表达式   私有静态最终字符串regEx_style=" & lt;风格[^祝辞)* & # 63;祝辞(\ \ \ \年代)* & # 63;& lt; \ \/style>”;//定义风格的正则表达式   私有静态最终字符串regEx_html=" & lt;[^祝辞]+祝辞”;//定义HTML标签的正则表达式   私有静态最终字符串regEx_space=" \ \ s * | \ t | | \ r \ n”;//定义空格回车换行符   私有静态最终字符串regEx_w=" & lt; w[^祝辞)* & # 63;祝辞(\ \ \ \年代)* & # 63;& lt; \ \/w(^的在)* & # 63;在“;//定义所有w标签/* *   * @param htmlStr   * @return删除Html标签   * @author龙津   */delHTMLTag公共静态字符串(字符串htmlStr) {   模式p_w=Pattern.compile (regEx_w Pattern.CASE_INSENSITIVE);   匹配器m_w=p_w.matcher (htmlStr);   htmlStr=m_w.replaceAll (" ");//过滤脚本标签   模式p_script=Pattern.compile (regEx_script Pattern.CASE_INSENSITIVE);   匹配器m_script=p_script.matcher (htmlStr);   htmlStr=m_script.replaceAll (" ");//过滤脚本标签   模式p_style=Pattern.compile (regEx_style Pattern.CASE_INSENSITIVE);   匹配器m_style=p_style.matcher (htmlStr);   htmlStr=m_style.replaceAll (" ");//过滤风格标签   模式p_html=Pattern.compile (regEx_html Pattern.CASE_INSENSITIVE);   匹配器m_html=p_html.matcher (htmlStr);   htmlStr=m_html.replaceAll (" ");//过滤html标签   模式p_space=Pattern.compile (regEx_space Pattern.CASE_INSENSITIVE);   匹配器m_space=p_space.matcher (htmlStr);   htmlStr=m_space.replaceAll (" ");//过滤空格回车标签   htmlStr=htmlStr。replaceAll (" ", " ");//过滤   返回htmlStr.trim ();//返回文本字符串   }      

ps:方法仅供参考,供大家一起互相学习,若有不足或者疑问欢迎评论。

Java中正则表达式去除html标签