JAVA过滤标签实现将html内容转换为文本的方法示例

  

本文实例讲述了JAVA过滤标签实现将html内容转换为文本的方法。分享给大家供大家参考,具体如下:

     /* *   *把html内容转为文本   * @param html需要处理的html文本   * @param filterTags需要保留的html标签样式   * @return   */公共静态字符串trimHtml2Txt (String html, String [] filterTags) {   html=html.replaceAll (“\ \ & lt; head>(\ \ \ \年代)* & # 63;& lt;/head>(我)& # 63;"," ");//去掉脑袋   html=html.replaceAll (“\ \ & lt; !——(\ \ \ \年代)* & # 63;——比;"," ");//去掉注释   html=html.replaceAll (“\ \ & lt; !(\ \ \ \年代)* & # 63;比;”、“”);   html=html.replaceAll (“\ \ & lt;风格[^祝辞]*祝辞(\ \ \ \年代)* & # 63;& lt;/style>(我)& # 63;"," ");//去掉样式   html=html.replaceAll (“\ \ & lt;脚本(^祝辞]*祝辞(\ \ \ \年代)* & # 63;& lt;/script>(我)& # 63;"," ");//去掉js   html=html.replaceAll (“\ \ & lt; w:[^祝辞]+祝辞(\ \ \ \年代)* & # 63;& lt;/w:[^祝辞]+祝辞(我)& # 63;"," ");//去掉单词标签   html=html.replaceAll (“\ \ & lt; xml>(\ \ \ \年代)* & # 63;& lt;/xml>(我)& # 63;”、“”);   html=html.replaceAll (“\ \ & lt; html[^祝辞]*祝辞| & lt;身体[^祝辞]*祝辞| & lt;/html> | & lt;/body>(我)& # 63;”、“”);   html=html。replaceAll (“\ \ \ r \ n \ n | | \ r ", " ");//去掉换行   html=html.replaceAll (“\ \ & lt; br[^祝辞]*祝辞(我)& # 63;”、“\ n \ r”);   List标签=new ArrayList ();   Lists_tags=new ArrayList ();   ListhalfTag=数组。asList(新String [] {“img”、“表”、“thead”、“th”、“tr”、“td”});//如果(filterTags !=零,,filterTags。长度比;0){   (字符串标签:filterTags) {   tags.add (“& lt;“+标签+ (halfTag.contains(标签)& # 63;" ":"在"));//开始标签   如果(!“img”.equals(标签))tags.add (“& lt;/?标签+ "在");//结束标签   s_tags.add (“# REPLACETAG”+标签+ (halfTag.contains(标签)& # 63;“”:“REPLACETAG #”));//尽量替换为复杂一点的标记,以免与显示文本混合,如:文本中包含# td, #表等   如果(!“img”.equals(标签))s_tags.add (“# REPLACETAG/?标签+“REPLACETAG #”);   }   }   html=stringutil的。replaceEach (html标签。toArray(新的字符串(tags.size ())), s_tags。toArray(新的字符串(s_tags.size ())));   html=html.replaceAll (“\ \ & lt;/p>(我)& # 63;”、“\ n \ r”);   html=html.replaceAll (“\ \ & lt;[^祝辞]+比;”、“”);   html=StringUtils.replaceEach (html, s_tags。toArray(新的字符串(s_tags.size())),标签。toArray(新的字符串(tags.size ())));   html=html。replaceAll (" \ \ ", " ");   返回html.trim ();   }      之前      

  http://tools.jb51.net/code/htmlfilter

  

  http://tools.jb51.net/regex/javascript

  http://tools.jb51.net/regex/create_reg

  

更多关于java算法相关内容感兴趣的读者可查看本站专题:《java数据结构与算法教程》、《java字符与字符串操作技巧总结》,《java操作DOM节点技巧总结》,《java文件与目录操作技巧汇总》和《java缓存操作技巧汇总》

  

希望本文所述对大家java程序设计有所帮助。

JAVA过滤标签实现将html内容转换为文本的方法示例