使用Python进行中文繁简转换的实现代码

  

中文繁体,简体的差异,在不良贷款中类似英文中的大小写,但又比大小写更为复杂,比如同样为繁体字,大陆,香港和台湾又不一样。先前写过一篇中文繁简转换的文章,感觉写的不太详细,今天就针对Python下如何使用做进一步的记录。

  


  

  

OpenCC是一个开源的中文繁简转化项目,支持词汇级别的转换,异体字转换和地区习惯用词转换(中国大陆,台湾,香港)。主要特点为:

  
      <李>严格区分“一简对多繁”和“一简对多异”。   <李>完全兼容异体字,可以实现动态替换。   <李>严格审校一简对多繁词条,原则为“能分则不合”。   <李>支持中国大陆,台湾,香港异体字和地区习惯用词转换,如“裏”“裡”、“鼠標”“滑鼠”。   <李>词库和函数库完全分离,可以自由修改,导入,扩展。   <李>支持C、c++、Python、PHP、Java、Ruby、js和Android。   <李>兼容Windows、Linux、Mac平台。   
  

opencc-python是用纯Python所写的OpenCC实现。需要注意的是使用脉冲安装时正确的命令是pip安装opencc-python-reimplemented,如果使用pip安装opencc-python会出现如下错误:

  
  

完成输出命令python设置。py egg_info:
  ,,回溯(最近调用最后):
  ,,,,文件“& lt; string>”,1号线& lt; module>
  ,,,,文件“C: \用户当地\ Temp \ qw \ AppData \ \ pip-install-rvsnpo_d \ opencc-python \设置。py”, 1号线,在& lt; module>
  ,,,,,,从distribute_setup进口use_setuptools
  ,,ModuleNotFoundError:没有模块命名“distribute_setup”
  

     

opencc-pytho的使用:

        从opencc进口opencc      cc=OpenCC (t2)   # hk2s:繁体中文(香港标准)简体中文   # s2hk:简体中文,繁体中文(香港标准)   # s2t:简体中文繁体中文   # s2tw:简体中文,繁体中文(台湾标准)   # s2twp:简体中文,繁体中文(台湾标准,与短语)   # t2hk:中国传统繁体中文(香港标准)   # t2:繁体中文,简体中文   # t2tw:传统的中国传统的中国(台湾标准)   # tw2s:简体中文繁体中文(台湾标准)   # tw2sp:繁体中文(台湾标准)简体中文(短语)      to_convert='開放中文轉換(纯Python) '   转换=cc.convert (to_convert)   打印(转换)   之前      

opencc-python命令行调用:

        用法:python - m opencc [h][我& lt; file>] [o & lt; file>] [- c & lt; conversion>]   [——in-enc & lt; encoding>] [——out-enc & lt; encoding>】      可选参数:   - h,帮助显示帮助消息并退出   我& lt; file>,输入& lt; file>   读原文& lt; file>。(默认值:没有=STDIN)   - o & lt; file>,输出& lt; file>   编写转换文本& lt; file>。(默认值:没有=STDOUT)   - c & lt; conversion>,配置& lt; conversion>   转换(默认值:无)   ——in-enc & lt; encoding>编码输入(默认值:utf - 8)   ——out-enc & lt; encoding>输出编码(默认值:utf - 8)      示例使用utf - 8编码的文件:      python - m opencc - c s2t -我my_simplified_input_file。txt - o my_traditional_output_file.txt      请参阅https://docs.python.org/3/library/codecs.html standard-encodings编码列表。      

总结:OpenCC精度非常的高,另外也包含了习惯用词转换,比较适合放置在网站上进行自动的语言翻译。

  

<强>参考链接:

  

https://github.com/BYVoid/OpenCC
  https://github.com/yichen0831/opencc-python
  

  


  

  

zhconv提供基于MediaWiki和OpenCC词汇表的最大正向匹配简繁转换,支持地区词转换:属性,应用zh-tw, zh-hk, zh-sg, zh-hans, zh-hant.Python 2、3通用。

  

安装方式:<代码> pip安装zhconv

  

使用示例:

        从zhconv导入转换      打印(转换(u '我幹什麼不干你事。”,“应用”))   打印(转换(u '人体内存在很多微生物”,“zh-tw”))      

命令行工具:

        python -mzhconv [- w]{应用| zh-tw | zh-hk | zh-sg | zh-hans | - hant zh型}| & lt;输入在输出      

参考链接:

  

https://github.com/gumblex/zhconv
  

  

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。

使用Python进行中文繁简转换的实现代码