快捷導(dǎo)航

對(duì)Python生成漢字字庫(kù)文字,以及轉(zhuǎn)換為文字圖片的實(shí)例詳解

更新時(shí)間：2019年01月29日 08:52:05 作者：JohnieLi

今天小編就為大家分享一篇對(duì)Python生成漢字字庫(kù)文字,以及轉(zhuǎn)換為文字圖片的實(shí)例詳解，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

筆者小白在收集印刷體漢字的深度學(xué)習(xí)訓(xùn)練集的時(shí)候，一開(kāi)始就遇到的了一個(gè)十分棘手的問(wèn)題，就是如何獲取神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集數(shù)據(jù)。通過(guò)上網(wǎng)搜素，筆者沒(méi)有找到可用的現(xiàn)成的可下載的漢字的訓(xùn)練集，于是筆者采用了代碼自建漢字的訓(xùn)練集數(shù)據(jù)。

這里采用的是python編寫(xiě)程序，需要import 的python庫(kù)請(qǐng)?zhí)崆鞍惭b。

那么，首先如何用python輸出漢字字庫(kù)的文字？

筆者查到在計(jì)算機(jī)中漢字編碼范圍是0x4E00到0x9FA5，利用unichr（）可以將十六進(jìn)制的編碼轉(zhuǎn)成人類(lèi)可讀的字。

這里擴(kuò)展一下在python庫(kù)中什么是unichr（），以及什么是chr（）和ord（）。

chr( )函數(shù)用一個(gè)范圍在range（256）內(nèi)的（就是0～255）整數(shù)作參數(shù)，返回一個(gè)對(duì)應(yīng)的字符。

unichr( )跟它一樣，只不過(guò)返回的是Unicode字符，這個(gè)從Python 2.0才加入的unichr( )的參數(shù)范圍依賴(lài)于你的Python是如何被編譯的。

如果是配置為USC2的Unicode，那么它的允許范圍就是range（65536）或0x0000-0xFFFF；如果配置為UCS4，那么這個(gè)值應(yīng)該是range（1114112）或0x000000-0x110000。

如果提供的參數(shù)不在允許的范圍內(nèi)，則會(huì)報(bào)一個(gè)ValueError的異常。

ord( )函數(shù)是chr( )函數(shù)（對(duì)于8位的ASCII字符串）或unichr( )函數(shù)（對(duì)于Unicode對(duì)象）的配對(duì)函數(shù)，它以一個(gè)字符（長(zhǎng)度為1的字符串）作為參數(shù)，返回對(duì)應(yīng)的ASCII數(shù)值，或者Unicode數(shù)值，如果所給的Unicode字符超出了你的Python定義范圍，則會(huì)引發(fā)一個(gè)TypeError的異常。

接下來(lái)就是把unicode編碼的字寫(xiě)入文件呢，如果直接用open()的話(huà)，會(huì)提示UnicodeEncodeError: ‘a(chǎn)scii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128)

這里就是涉及到python讀寫(xiě)文件時(shí)候的兩種方式了，一種是open（），還一種是codecs.open( )。

對(duì)于open（）這個(gè)python的內(nèi)置函數(shù)來(lái)說(shuō)，打開(kāi)文件的方式一般為：

f=open(file_name,access_mode = 'r',buffering = -1)。

file_name就是文件的路徑加文件名字，不加路徑則文件會(huì)存放在python程序的路徑下，

access_mode就是操作文件的模式，主要有r,w,rb，wb等，細(xì)節(jié)網(wǎng)上一大堆,buffering = -1是用于指示訪(fǎng)問(wèn)文件所采用的緩存方式。0表示不緩存；1表示只緩存一行，n代表緩存n行。如果不提供或?yàn)樨?fù)數(shù)，則代表使用系統(tǒng)默認(rèn)的緩存機(jī)制。

>>> fr = open('test1.txt','wb')
>>> line1 = "我是誰(shuí)"
>>> fr.write(line1)

打開(kāi)以后就是寫(xiě)和讀的操作。但是用open方法打開(kāi)會(huì)有一些問(wèn)題。open打開(kāi)文件只能寫(xiě)入str類(lèi)型,不管字符串是什么編碼方式。所以對(duì)于寫(xiě)入文件的數(shù)據(jù)的編碼不統(tǒng)一的時(shí)候，需要用到codecs.open（）。

這種方法可以指定一個(gè)編碼打開(kāi)文件，使用這個(gè)方法打開(kāi)的文件讀取返回的將是unicode。

寫(xiě)入時(shí)，如果參數(shù) 是unicode，則使用open()時(shí)指定的編碼進(jìn)行編碼后寫(xiě)入；如果是str，則先根據(jù)源代碼文件聲明的字符編碼，解碼成unicode后再進(jìn)行前述操作。

相對(duì)內(nèi)置的open()來(lái)說(shuō)，這個(gè)方法比較不容易在編碼上出現(xiàn)問(wèn)題。

>>> import codecs
>>> line2 = u'我是誰(shuí)'
>>> fw = codecs.open('test1.txt','wb','utf-8')
>>> fw.write(line2)

這里是將漢字字庫(kù)的文字寫(xiě)出到文本文件中，代碼如下：

import codecs
start,end = (0x4E00, 0x9FA5) #漢字編碼的范圍
with codecs.open("chinese.txt", "wb", encoding="utf-8") as f:
 for codepoint in range(int(start),int(end)):
 f.write(unichr(codepoint)) #寫(xiě)出漢字

在同目錄文件下，生成漢字字庫(kù)的chinese.txt文件：

Python生成漢字字庫(kù)文字,以及轉(zhuǎn)換為文字圖片

接下來(lái)就是把漢字字庫(kù)的字一個(gè)個(gè)保存成圖片，這里需要pip install pygame的庫(kù)。

pygame可以將文字渲染到圖片上保存。

代碼如下：

#encoding: utf-8
import os
import pygame

chinese_dir = 'chinese'
if not os.path.exists(chinese_dir):
 os.mkdir(chinese_dir)

pygame.init()
start,end = (0x4E00, 0x9FA5) # 漢字編碼范圍
for codepoint in range(int(start), int(end)):
 word = unichr(codepoint)
 font = pygame.font.Font("msyh.ttc", 64)
 # 當(dāng)前目錄下要有微軟雅黑的字體文件msyh.ttc,或者去c:\Windows\Fonts目錄下找
 # 64是生成漢字的字體大小
 rtext = font.render(word, True, (0, 0, 0), (255, 255, 255))
 pygame.image.save(rtext, os.path.join(chinese_dir, word + ".png"))

這里是在chinese文件夾里面生成的文字圖片，字體是黑體，然后再在個(gè)基礎(chǔ)上可以繼續(xù)自制漢字識(shí)別的訓(xùn)練集了。

Python生成漢字字庫(kù)文字,以及轉(zhuǎn)換為文字圖片