CentOS下使用LibreOffice实现文档格式的转换方式

  

项目需求,对上传的文档进行一些预处理,如果用户上传了医生格式的文档,需要将其处理为多克斯或者pdf格式,以便后续的流程对文档内容进行提取。

  

先是试了一下<代码> phpoffice/phpword 这个包,发现其对医生的转换很不理想,这个包更适合用来根据内容生成文档,而不是转换文档,不是太适合我这种需求。

  

然后发现了LibreOffice这个开源工具,经过使用,效果很好,分享一下。

  

服务器是CentOS7,直接使用yum安装LibreOffice,大概需要600 mb +的磁盘空间:

        #装之前可以先删除一下,防止之前装过   百胜移除libreoffice - *   yum安装libreoffice      

等待安装完成后,确认一下版本啥的,虽然官方已经到6.1版本了,百胜里面还是5.3.6的包,不过用起来并没有什么毛病,在这里我还是建议大家使用各自的Linux系统的包管理工具来安装,这样可以省去很多麻烦的。

        root@localhost/# soffice——版本   LibreOffice 5.3.6.1 30(构建:1)   
     

不会用的话可以使用soffice——帮助看一下帮助,非常多的参数和使用案例,转换格式就很简单:

        多克斯soffice——无头转换为/opt/上传/源/123。医生——outdir /opt/上传/来源   
     

以上的命令就是将<代码>源/123./opt/上传/doc 文件转换成多克斯格式、输出到<代码>/opt/上传/>   

默认情况下:

  
      <李>会使用源文件名+新的扩展名保存输出文件;李   <李>会覆盖outdir里已经有的同名文件;李   <李>   
  

转换成功会输出类似这样的:

        将/opt/上传/源/123。医生→/123/opt/上传/来源。多克斯使用过滤器:MS Word 2007 XML   重写:/opt/上传/源/123.多克斯      

LibreOffice会根据文件格式自动匹配格式过滤器(过滤),至于它支持哪些格式,可以参考一下官网。

  

  

以上所述是小编给大家介绍的CentOS下使用LibreOffice实现文档格式的转换方式,希望对大家有所帮助,如果大家有任何疑问请给我留的言,小编会及时回复大家的。在此也非常感谢大家对网站的支持。
  如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

CentOS下使用LibreOffice实现文档格式的转换方式