如何利用java实现获取一个文件的编码

  介绍

如何利用java实现获取一个文件的编码?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

<强> maven引入获取编码的jar

 & lt; dependency>
  & lt; groupId> com.ibm.icu
  & lt; artifactId> icu4j
  & lt; version> 67.1 & lt;/version>
  & lt;/dependency> 

<强>获取文件编码

包com.lovnx.note.util;
  进口com.ibm.icu.text.CharsetDetector;
  进口com.ibm.icu.text.CharsetMatch;
  进口org.jsoup.Jsoup;
  进口org.jsoup.nodes.Document;
  进口org.jsoup.select.Elements;
  
  进口java.io.IOException;
  进口java.net.URL;
  进口java.nio.file.Files;
  进口java.nio.file.Path;
  进口java.nio.file.Paths;/* *
  * @author @256g的胃
  * @ClassName HtmlParse
  * @Description
  * @Date十五32 2020/7/9
  * */公开课HtmlParse {
  
  getEncode公共静态字符串(字符串filePath)抛出IOException {
  
  路径路径=Paths.get (filePath);
  byte [] data=https://www.yisu.com/zixun/Files.readAllBytes(路径);
  
  CharsetDetector探测器=new CharsetDetector ();
  detector.setText(数据);
  CharsetMatch匹配=detector.detect ();
  字符串编码=match.getName ();
  system . out。println(“内容”+ match.getName ());
  返回编码;
  }
  公共静态void main (String [] args){抛出异常
  System.out.println (HtmlParse.getEncode("/用户/cxt/下载/test.html "));
  }
  }

上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式,然后再根据下载下来的文件识别纯文本

文档doc=Jsoup.parse(“读取的文本字符串,此处应该是带html标签的“);

字符串文本=doc.text ();

jsoup也支持直接指定文件的形式去获取纯文本

参考https://jsoup.org/

<强> java解析html/读取html内容

<强> jsoup

<强>字符串转化

1, doc文档=Jsoup.parse (html);

例如:

关于如何利用java实现获取一个文件的编码问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注行业资讯频道了解更多相关知识。

如何利用java实现获取一个文件的编码