Python實(shí)現(xiàn)簡(jiǎn)繁體轉(zhuǎn)換
簡(jiǎn)體繁體轉(zhuǎn)換
如今,世界上存在兩種中文,一種是中文簡(jiǎn)體,一種是中文繁體。如果要完全掌握中文語(yǔ)言的自然語(yǔ)言處理,那么簡(jiǎn)繁都不可避免。所以,掌握了簡(jiǎn)體與繁體的轉(zhuǎn)換,往往能夠事半功倍。
而HanLP也提供了簡(jiǎn)繁轉(zhuǎn)換的類:CharTable,用它來(lái)執(zhí)行字符正規(guī)化。比如簡(jiǎn)體轉(zhuǎn)換繁體,全角轉(zhuǎn)換半角,大寫轉(zhuǎn)換小寫,都可以使用該類來(lái)實(shí)現(xiàn)。
使用CharTable進(jìn)行簡(jiǎn)繁體轉(zhuǎn)換
下面,我們來(lái)直接使用CharTable進(jìn)行一段詩(shī)詞的繁體到簡(jiǎn)單的轉(zhuǎn)換。具體代碼如下所示:
if __name__ == "__main__": CharTable=JClass('com.hankcs.hanlp.dictionary.other.CharTable') print(CharTable.convert('空山新雨後,天氣晚來(lái)秋。明月松間照,清泉石上流。 竹喧歸浣女,蓮動(dòng)下漁舟。隨意春芳歇,王孫自可留。'))
運(yùn)行之后,效果如下:
不過(guò),繁體發(fā)展并不是僅僅只有一種。漢語(yǔ)歷史悠久,發(fā)展至今在字符級(jí)別存在著“一簡(jiǎn)對(duì)多個(gè)繁體”和“一繁對(duì)多簡(jiǎn)”的現(xiàn)象。為此,HanLP實(shí)現(xiàn)了“簡(jiǎn)體”、“繁體”、“臺(tái)灣繁體”、“香港繁體”間的互相轉(zhuǎn)換功能,力圖將簡(jiǎn)繁轉(zhuǎn)換做到極致。
HanLP中文分類如下:
- 簡(jiǎn)體s
- 繁體t
- 臺(tái)灣繁體tw
- 香港繁體hk
多種繁簡(jiǎn)之間的轉(zhuǎn)換
盡然有這種多繁體,那么轉(zhuǎn)換起來(lái)也肯定有很多種。下面,我們來(lái)分別實(shí)現(xiàn)這些字體之間的互相轉(zhuǎn)換。完整代碼如下所示:
if __name__ == "__main__": text_tw="空山新雨後,天氣晚來(lái)秋。明月鬆間照,清泉石上流。 竹喧歸浣女,蓮動(dòng)下漁舟。隨意春芳歇,王孫自可留。" text_sc = "空山新雨后,天氣晚來(lái)秋。明月松間照,清泉石上流。 竹喧歸浣女,蓮動(dòng)下漁舟。隨意春芳歇,王孫自可留。" text_hk="空山新雨後,天氣晚來(lái)秋。明月鬆間照,清泉石上流。 竹喧歸浣女,蓮動(dòng)下漁舟。隨意春芳歇,王孫自可留。" text_st="空山新雨後,天氣晚來(lái)秋。明月鬆間照,清泉石上流。 竹喧歸浣女,蓮動(dòng)下漁舟。隨意春芳歇,王孫自可留。" #簡(jiǎn)體轉(zhuǎn)臺(tái)灣繁體 print(HanLP.s2tw(text_sc)) #臺(tái)灣繁體轉(zhuǎn)簡(jiǎn)體 print(HanLP.tw2s(text_tw)) #簡(jiǎn)體轉(zhuǎn)香港繁體 print(HanLP.s2hk(text_sc)) #香港繁體轉(zhuǎn)簡(jiǎn)體 print(HanLP.hk2s(text_hk)) #香港繁體轉(zhuǎn)臺(tái)灣繁體 print(HanLP.hk2tw(text_hk)) # 臺(tái)灣繁體轉(zhuǎn)香港繁體 print(HanLP.tw2hk(text_tw)) #香港臺(tái)灣繁體轉(zhuǎn)標(biāo)準(zhǔn)繁體轉(zhuǎn)換 print(HanLP.tw2t(text_tw)) print(HanLP.hk2t(text_hk)) # 標(biāo)準(zhǔn)繁體轉(zhuǎn)換轉(zhuǎn)香港臺(tái)灣繁體 print(HanLP.t2tw(text_st)) print(HanLP.t2hk(text_st))
運(yùn)行之后,效果如下:
到此這篇關(guān)于Python實(shí)現(xiàn)簡(jiǎn)繁體轉(zhuǎn)換的文章就介紹到這了,更多相關(guān)Python 簡(jiǎn)繁體轉(zhuǎn)換內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
對(duì)于Python的框架中一些會(huì)話程序的管理
這篇文章主要介紹了對(duì)于Python的框架中一些會(huì)話程序的管理,會(huì)話的實(shí)現(xiàn)是Python框架的基本功能,本文主要講述了對(duì)其的一些管理維護(hù)要點(diǎn),需要的朋友可以參考下2015-04-04Vscode?遠(yuǎn)程切換Python虛擬環(huán)境的詳細(xì)步驟
使用VSCode遠(yuǎn)程切換Python虛擬環(huán)境涉及安裝VSCode和必要擴(kuò)展、連接遠(yuǎn)程服務(wù)器、創(chuàng)建或激活虛擬環(huán)境,并選擇對(duì)應(yīng)Python解釋器,詳細(xì)步驟包括安裝Python和Remote-SSH擴(kuò)展,感興趣的朋友一起看看吧2024-09-09python和shell監(jiān)控linux服務(wù)器的詳細(xì)代碼
這篇文章主要為大家介紹了使用python和shell監(jiān)控linux服務(wù)器的詳細(xì)代碼,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-06-06python實(shí)現(xiàn)兩個(gè)文件合并功能
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)兩個(gè)文件合并功能,一個(gè)簡(jiǎn)單的文件合并程序,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-04-04Django restframework 框架認(rèn)證、權(quán)限、限流用法示例
這篇文章主要介紹了Django restframework 框架認(rèn)證、權(quán)限、限流用法,結(jié)合實(shí)例形式詳細(xì)分析了Djangorestframework 框架認(rèn)證、權(quán)限、限流的具體使用方法及相關(guān)操作注意事項(xiàng),需要的朋友可以參考下2019-12-12利用Python中的pandas庫(kù)對(duì)cdn日志進(jìn)行分析詳解
這篇文章主要介紹了利用Python中的pandas庫(kù)進(jìn)行cdn日志分析的相關(guān)資料,文中分享了pandas對(duì)cdn日志分析的完整示例代碼,然后詳細(xì)介紹了關(guān)于pandas庫(kù)的相關(guān)內(nèi)容,需要的朋友可以參考借鑒,下面來(lái)一起看看吧。2017-03-03python json.dumps中文亂碼問(wèn)題解決
這篇文章主要介紹了python json.dumps中文亂碼問(wèn)題解決,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-04-04