對(duì)Python生成漢字字庫文字,以及轉(zhuǎn)換為文字圖片的實(shí)例詳解
筆者小白在收集印刷體漢字的深度學(xué)習(xí)訓(xùn)練集的時(shí)候,一開始就遇到的了一個(gè)十分棘手的問題,就是如何獲取神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集數(shù)據(jù)。通過上網(wǎng)搜素,筆者沒有找到可用的現(xiàn)成的可下載的漢字的訓(xùn)練集,于是筆者采用了代碼自建漢字的訓(xùn)練集數(shù)據(jù)。
這里采用的是python編寫程序,需要import 的python庫請(qǐng)?zhí)崆鞍惭b。
那么,首先如何用python輸出漢字字庫的文字?
筆者查到在計(jì)算機(jī)中漢字編碼范圍是0x4E00到0x9FA5,利用unichr()可以將十六進(jìn)制的編碼轉(zhuǎn)成人類可讀的字。
這里擴(kuò)展一下在python庫中什么是unichr(),以及什么是chr()和ord()。
chr( )函數(shù)用一個(gè)范圍在range(256)內(nèi)的(就是0~255)整數(shù)作參數(shù),返回一個(gè)對(duì)應(yīng)的字符。
unichr( )跟它一樣,只不過返回的是Unicode字符,這個(gè)從Python 2.0才加入的unichr( )的參數(shù)范圍依賴于你的Python是如何被編譯的。
如果是配置為USC2的Unicode,那么它的允許范圍就是range(65536)或0x0000-0xFFFF;如果配置為UCS4,那么這個(gè)值應(yīng)該是range(1114112)或0x000000-0x110000。
如果提供的參數(shù)不在允許的范圍內(nèi),則會(huì)報(bào)一個(gè)ValueError的異常。
ord( )函數(shù)是chr( )函數(shù)(對(duì)于8位的ASCII字符串)或unichr( )函數(shù)(對(duì)于Unicode對(duì)象)的配對(duì)函數(shù),它以一個(gè)字符(長度為1的字符串)作為參數(shù),返回對(duì)應(yīng)的ASCII數(shù)值,或者Unicode數(shù)值,如果所給的Unicode字符超出了你的Python定義范圍,則會(huì)引發(fā)一個(gè)TypeError的異常。
接下來就是把unicode編碼的字寫入文件呢,如果直接用open()的話,會(huì)提示UnicodeEncodeError: ‘a(chǎn)scii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128)
這里就是涉及到python讀寫文件時(shí)候的兩種方式了,一種是open(),還一種是codecs.open( )。
對(duì)于open()這個(gè)python的內(nèi)置函數(shù)來說, 打開文件的方式一般為:
f=open(file_name,access_mode = 'r',buffering = -1)。
file_name就是文件的路徑加文件名字,不加路徑則文件會(huì)存放在python程序的路徑下,
access_mode就是操作文件的模式,主要有r,w,rb,wb等,細(xì)節(jié)網(wǎng)上一大堆,buffering = -1是用于指示訪問文件所采用的緩存方式。0表示不緩存;1表示只緩存一行,n代表緩存n行。如果不提供或?yàn)樨?fù)數(shù),則代表使用系統(tǒng)默認(rèn)的緩存機(jī)制。
>>> fr = open('test1.txt','wb') >>> line1 = "我是誰" >>> fr.write(line1)
打開以后就是寫和讀的操作。但是用open方法打開會(huì)有一些問題。open打開文件只能寫入str類型,不管字符串是什么編碼方式。所以對(duì)于寫入文件的數(shù)據(jù)的編碼不統(tǒng)一的時(shí)候,需要用到codecs.open()。
這種方法可以指定一個(gè)編碼打開文件,使用這個(gè)方法打開的文件讀取返回的將是unicode。
寫入時(shí),如果參數(shù) 是unicode,則使用open()時(shí)指定的編碼進(jìn)行編碼后寫入;如果是str,則先根據(jù)源代碼文件聲明的字符編碼,解碼成unicode后再進(jìn)行前述 操作。
相對(duì)內(nèi)置的open()來說,這個(gè)方法比較不容易在編碼上出現(xiàn)問題。
>>> import codecs >>> line2 = u'我是誰' >>> fw = codecs.open('test1.txt','wb','utf-8') >>> fw.write(line2)
這里是將漢字字庫的文字寫出到文本文件中,代碼如下:
import codecs start,end = (0x4E00, 0x9FA5) #漢字編碼的范圍 with codecs.open("chinese.txt", "wb", encoding="utf-8") as f: for codepoint in range(int(start),int(end)): f.write(unichr(codepoint)) #寫出漢字
在同目錄文件下,生成漢字字庫的chinese.txt文件:
接下來就是把漢字字庫的字一個(gè)個(gè)保存成圖片,這里需要pip install pygame的庫。
pygame可以將文字渲染到圖片上保存。
代碼如下:
#encoding: utf-8 import os import pygame chinese_dir = 'chinese' if not os.path.exists(chinese_dir): os.mkdir(chinese_dir) pygame.init() start,end = (0x4E00, 0x9FA5) # 漢字編碼范圍 for codepoint in range(int(start), int(end)): word = unichr(codepoint) font = pygame.font.Font("msyh.ttc", 64) # 當(dāng)前目錄下要有微軟雅黑的字體文件msyh.ttc,或者去c:\Windows\Fonts目錄下找 # 64是生成漢字的字體大小 rtext = font.render(word, True, (0, 0, 0), (255, 255, 255)) pygame.image.save(rtext, os.path.join(chinese_dir, word + ".png"))
這里是在chinese文件夾里面生成的文字圖片,字體是黑體,然后再在個(gè)基礎(chǔ)上可以繼續(xù)自制漢字識(shí)別的訓(xùn)練集了。
以上這篇對(duì)Python生成漢字字庫文字,以及轉(zhuǎn)換為文字圖片的實(shí)例詳解就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python通過OpenCV的findContours獲取輪廓并切割實(shí)例
這篇文章主要介紹了Python通過OpenCV的findContours獲取輪廓并切割實(shí)例,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-01-01Python中的copy()函數(shù)詳解(list,array)
這篇文章主要介紹了Python中的copy()函數(shù)詳解(list,array),具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-09-09python 獲取一個(gè)值在某個(gè)區(qū)間的指定倍數(shù)的值方法
今天小編就為大家分享一篇python 獲取一個(gè)值在某個(gè)區(qū)間的指定倍數(shù)的值方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-11-11python標(biāo)準(zhǔn)庫sys和OS的函數(shù)使用方法與實(shí)例詳解
這篇文章主要介紹了python標(biāo)準(zhǔn)庫sys和OS的函數(shù)使用方法與實(shí)例詳解,需要的朋友可以參考下2020-02-02導(dǎo)入pytorch時(shí)libmkl_intel_lp64.so找不到問題解決
這篇文章主要為大家介紹了導(dǎo)入pytorch時(shí)libmkl_intel_lp64.so找不到問題解決示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-06-06淺談python裝飾器探究與參數(shù)的領(lǐng)取
下面小編就為大家分享一篇淺談python裝飾器探究與參數(shù)的領(lǐng)取,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2017-12-12Python列表之間的數(shù)字與字符轉(zhuǎn)化實(shí)例
在python列表操作中,面對(duì)需要把列表中的字符串轉(zhuǎn)為禮拜的操作,無需強(qiáng)轉(zhuǎn),通過簡(jiǎn)單的幾步就可以實(shí)現(xiàn),下面這篇文章主要給大家介紹了關(guān)于Python列表之間的數(shù)字與字符轉(zhuǎn)化的相關(guān)資料,需要的朋友可以參考下2023-02-02最新版 Windows10上安裝Python 3.8.5的步驟詳解
這篇文章主要介紹了最新版 Windows10上安裝Python 3.8.5的步驟詳解,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-11-11Python編程實(shí)現(xiàn)小姐姐跳舞并生成詞云視頻示例
本文用Python做了一個(gè)詞云視頻,以另一種角度來看小姐姐跳舞視頻左半部分是小姐姐跳舞視頻,右半部分是根據(jù)動(dòng)作生成的的詞云視頻,有需要的朋友可以借鑒參考下2021-10-10