中文繁体,简体的差异,在不良贷款中类似英文中的大小写,但又比大小写更为复杂,比如同样为繁体字,大陆,香港和台湾又不一样。先前写过一篇中文繁简转换的文章,感觉写的不太详细,今天就针对Python下如何使用做进一步的记录。
OpenCC是一个开源的中文繁简转化项目,支持词汇级别的转换,异体字转换和地区习惯用词转换(中国大陆,台湾,香港)。主要特点为:
-
<李>严格区分“一简对多繁”和“一简对多异”。李>
<李>完全兼容异体字,可以实现动态替换。李>
<李>严格审校一简对多繁词条,原则为“能分则不合”。李>
<李>支持中国大陆,台湾,香港异体字和地区习惯用词转换,如“裏”“裡”、“鼠標”“滑鼠”。李>
<李>词库和函数库完全分离,可以自由修改,导入,扩展。李>
<李>支持C、c++、Python、PHP、Java、Ruby、js和Android。李>
<李>兼容Windows、Linux、Mac平台。李>
opencc-python是用纯Python所写的OpenCC实现。需要注意的是使用脉冲安装时正确的命令是pip安装opencc-python-reimplemented,如果使用pip安装opencc-python会出现如下错误:
完成输出命令python设置。py egg_info:
引用>
,,回溯(最近调用最后):
,,,,文件“& lt; string>”,1号线& lt; module>
,,,,文件“C: \用户当地\ Temp \ qw \ AppData \ \ pip-install-rvsnpo_d \ opencc-python \设置。py”, 1号线,在& lt; module>
,,,,,,从distribute_setup进口use_setuptools
,,ModuleNotFoundError:没有模块命名“distribute_setup”
opencc-pytho的使用:
从opencc进口opencc cc=OpenCC (t2) # hk2s:繁体中文(香港标准)简体中文 # s2hk:简体中文,繁体中文(香港标准) # s2t:简体中文繁体中文 # s2tw:简体中文,繁体中文(台湾标准) # s2twp:简体中文,繁体中文(台湾标准,与短语) # t2hk:中国传统繁体中文(香港标准) # t2:繁体中文,简体中文 # t2tw:传统的中国传统的中国(台湾标准) # tw2s:简体中文繁体中文(台湾标准) # tw2sp:繁体中文(台湾标准)简体中文(短语) to_convert='開放中文轉換(纯Python) ' 转换=cc.convert (to_convert) 打印(转换) >之前opencc-python命令行调用:
用法:python - m opencc [h][我& lt; file>] [o & lt; file>] [- c & lt; conversion>] [——in-enc & lt; encoding>] [——out-enc & lt; encoding>】 可选参数: - h,帮助显示帮助消息并退出 我& lt; file>,输入& lt; file> 读原文& lt; file>。(默认值:没有=STDIN) - o & lt; file>,输出& lt; file> 编写转换文本& lt; file>。(默认值:没有=STDOUT) - c & lt; conversion>,配置& lt; conversion> 转换(默认值:无) ——in-enc & lt; encoding>编码输入(默认值:utf - 8) ——out-enc & lt; encoding>输出编码(默认值:utf - 8) 示例使用utf - 8编码的文件: python - m opencc - c s2t -我my_simplified_input_file。txt - o my_traditional_output_file.txt 请参阅https://docs.python.org/3/library/codecs.html standard-encodings编码列表。总结:OpenCC精度非常的高,另外也包含了习惯用词转换,比较适合放置在网站上进行自动的语言翻译。
<强>参考链接:强>
https://github.com/BYVoid/OpenCC
https://github.com/yichen0831/opencc-python
zhconv提供基于MediaWiki和OpenCC词汇表的最大正向匹配简繁转换,支持地区词转换:属性,应用zh-tw, zh-hk, zh-sg, zh-hans, zh-hant.Python 2、3通用。
安装方式:<代码> pip安装zhconv 代码>
使用示例:
从zhconv导入转换 打印(转换(u '我幹什麼不干你事。”,“应用”)) 打印(转换(u '人体内存在很多微生物”,“zh-tw”))命令行工具:
python -mzhconv [- w]{应用| zh-tw | zh-hk | zh-sg | zh-hans | - hant zh型}| & lt;输入在输出参考链接:
https://github.com/gumblex/zhconv
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
使用Python进行中文繁简转换的实现代码