对Python生成汉字字库文字,以及转换为文字图片的实例详解

  

笔者小白在收集印刷体汉字的深度学习训练集的时候,一开始就遇到的了一个十分棘手的问题,就是如何获取神经网络的训练集数据。通过上网搜素,笔者没有找到可用的现成的可下载的汉字的训练集,于是笔者采用了代码自建汉字的训练集数据。

  

这里采用的是python编写程序,需要导入的python库请提前安装。

  

<强>那么,首先如何用python输出汉字字库的文字?

  

笔者查到在计算机中汉字编码范围x4e00是0到0 x9fa5,利用unichr()可以将十六进制的编码转成人类可读的字。

  

这里扩展一下在python库中什么是unichr(),以及什么是空空的()和奥德()。

  

科()函数用一个范围在范围(256)内的(就是0 ~ 255)整数作参数,返回一个对应的字符。

  

unichr()跟它一样,只不过返回的是Unicode字符,这个从Python 2.0才加入的unichr()的参数范围依赖于你的Python是如何被编译的。

  

如果是配置为USC2的Unicode,那么它的允许范围就是范围(65536)或0 x0000-0xffff;如果配置为UCS4,那么这个值应该是范围(1114112)或0 x000000-0x110000 .

  

如果提供的参数不在允许的范围内,则会报一个ValueError的异常。

  

奥德()函数是为了()函数(对于8位的ASCII字符串)或unichr()函数(对于Unicode对象)的配对函数,它以一个字符(长度为1的字符串)作为参数,返回对应的ASCII数值,或者Unicode数值,如果所给的Unicode字符超出了你的Python定义范围,则会引发一个TypeError的异常。

  

接下来就是把unicode编码的字写入文件呢,如果直接用open()的话,会提示UnicodeEncodeError:“ascii”编解码器不能编码字符u ' \ u4e00 '位置0:序数不在范围(128)

  

这里就是涉及到python读写文件时候的两种方式了,一种是开放的(),还一种是编解码器。open () .

  

对于open()这个python的内置函数来说,打开文件的方式一般为:

        f=开放(file_name access_mode=畆’,缓冲=1)。      

file_name就是文件的路径加文件名字,不加路径则文件会存放在python程序的路径下,

  

access_mode就是操作文件的模式,主要有r, w, rb,白平衡等,细节网上一大堆,缓冲=1是用于指示访问文件所采用的缓存方式0表示不缓存;1表示只缓存一行,n代表缓存n行。如果不提供或为负数,则代表使用系统默认的缓存机制。

        在在在fr=开放(“test1.txt”,“世界银行”)   在在在line1="我是谁"   在在在fr.write (line1)      

打开以后就是写和读的操作。但是用开放的方法打开会有一些问题.open打开文件只能写入str类型,不管字符串是什么编码方式,所以对于写入文件的数据的编码不统一的时候,需要用到codecs.open ()。

  

这种方法可以指定一个编码打开文件,使用这个方法打开的文件读取返回的将是unicode。

  

写入时,如果参数是unicode,则使用open()时指定的编码进行编码后写入,如果是str,则先根据源代码文件声明的字符编码,解码成unicode后再进行前述操作。

  

相对内置的open()来说,这个方法比较不容易在编码上出现问题。

        在在在进口编解码器   在在在么=u '我是谁的   在在在弗兰克-威廉姆斯=codecs.open (“test1.txt”、“白平衡”,“utf - 8”)   在在在fw.write(么)      

这里是将汉字字库的文字写出到文本文件中,代码如下:

        进口编解码器   开始,结束=(0 x4e00 0 x9fa5) #汉字编码的范围   codecs.open(“中国。txt”、“白平衡”,编码=" utf - 8 ") f:   codepoint的范围(int(开始),int(结束):   f.write (unichr (codepoint) #写出汉字      

在同目录文件下,生成汉字字库的chinese.txt文件:

  

对Python生成汉字字库文字,以及转换为文字图片的实例详解

  

接下来就是把汉字字库的字一个个保存成图片,这里需要pip安装pygame的库。

  

pygame可以将文字渲染到图片上保存。

  

代码如下:

        utf - 8编码:   进口操作系统   进口pygame      chinese_dir='中国'   如果不是os.path.exists (chinese_dir):   os.mkdir (chinese_dir)      pygame.init ()   开始,结束=(0 x4e00 0 x9fa5) #汉字编码范围   codepoint的范围(int(开始),int(结束):   词=unichr (codepoint)   字体=pygame.font.Font (“msyh。ttc”, 64年)   #当前目录下要有微软雅黑的字体文件msyh.ttc,或者去c: \ Windows \字体目录下找   # 64是生成汉字的字体大小   rtext=字体。呈现(词,真的,(0,0,0),(255、255、255))   pygame.image。保存(rtext os.path。加入(chinese_dir,文字+ . png))   

对Python生成汉字字库文字,以及转换为文字图片的实例详解