欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實現(xiàn)拼音轉(zhuǎn)換

 更新時間:2021年06月07日 15:29:49   作者:一天一篇Python庫  
拼音轉(zhuǎn)換指的是將漢字轉(zhuǎn)為拼音的過程。本文介紹了Python實現(xiàn)拼音轉(zhuǎn)換,具有一定的參考價值,感興趣的小伙伴們可以參考一下

什么是拼音轉(zhuǎn)換

在我們學(xué)習(xí)語言之前,我們一般會學(xué)習(xí)拼音來認(rèn)識漢字,并學(xué)會如何讀漢字。所以,拼音在對于我們語言的重要性不言而喻。

而拼音轉(zhuǎn)換指的是將漢字轉(zhuǎn)為拼音的過程。但是,我們中文博大精深,一般來說某個字并不僅僅只有一個讀音,比如“翟”,它作為姓氏可以讀作zhái,作為其他可讀作di。這是就需要結(jié)合上下文,或者說結(jié)合與其組合的詞匯進(jìn)行轉(zhuǎn)換拼音。不僅如此,拼音還有音調(diào),比如一二三四聲表示的意義有時候也是不一樣的。

本篇博文將介紹字符串到拼音的轉(zhuǎn)換。

拼音轉(zhuǎn)換

首先,HanLP庫提供的拼音轉(zhuǎn)換為本位于data/dictionary/pinyin/pinyin.txt文件中。每行分別由=隔開漢字與拼音。其中多音字的拼音數(shù)量多余漢字?jǐn)?shù)量。在實際的轉(zhuǎn)換過程中,默認(rèn)讀取多音字的第一個拼音,除非匹配到更長的詞語。

此外,HanLP庫還支持聲母,韻母,音調(diào),音標(biāo)以及輸入法首字母與收聲母功能。當(dāng)然,也能給前文的繁體字轉(zhuǎn)換為拼音。

下面,我們來看一段代碼示例:

if __name__ == "__main__":
    text = "重載不是重量"
    pinyin_list = HanLP.convertToPinyinList(text)
    print(pinyin_list)

運行之后,控制臺輸出如下:

拼音輸出

可以看到,基本上每個字的拼音都輸出了。如果程序判斷不出來多音字是哪個聲調(diào),會輸出其所有的聲調(diào)。比如這里的體輸出了3聲和1聲,重輸出了3聲與2聲。

在python中,我們通過HanLP.convertToPinyinList進(jìn)行漢字與拼音的轉(zhuǎn)換。

輸出音調(diào)

鑒于我們已經(jīng)知道了如何轉(zhuǎn)換漢字到拼音,那么我們現(xiàn)在需要實現(xiàn)的是單獨獲取每個漢字的音調(diào),不需要聲調(diào)。現(xiàn)在該如何去實現(xiàn)呢?不妨先來看看代碼:

if __name__ == "__main__":
    Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin")
    text = "重載不是體重"
    pinyin_list = HanLP.convertToPinyinList(text)
    print(pinyin_list)
    print("輸出音調(diào)")
    for pinyin in pinyin_list:
        print("%s," % pinyin.getPinyinWithToneMark(), end=" ")

如上面代碼所示,我們獲取了Java的HanLP庫中的Pinyin類,這個類可以幫我們處理很多的拼音相關(guān)的問題,比如這里的獲取音調(diào)。

運行之后,效果如下:

輸出音調(diào)

需要注意的是,前面博文已經(jīng)說過了,通過python進(jìn)行HanLP庫使用時,盡量調(diào)用Java類進(jìn)行處理,因為Java類的處理時間比python快很多。這里我們通過Pinyin類的getPinyinWithToneMark()方法獲取聲調(diào)。

輸出聲調(diào)

既然可以只輸出音調(diào),那么肯定也可以單獨輸出聲調(diào)。具體代碼如下:

if __name__ == "__main__":
    Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin")
    text = "重載不是體重"
    pinyin_list = HanLP.convertToPinyinList(text)
    print(pinyin_list)
    print("輸出聲調(diào)")
    for pinyin in pinyin_list:
        print("%s," % pinyin.getTone(), end=" ")

運行之后,效果如下:

輸出聲調(diào)

這里我們通過Pinyin類的getTone()方法獲取聲調(diào)。

輸出聲母

同樣的,我們還可以輸出聲母。代碼如下:

if __name__ == "__main__":
    Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin")
    text = "重載不是體重"
    pinyin_list = HanLP.convertToPinyinList(text)
    print(pinyin_list)
    print("\r\n輸出聲母")
    for pinyin in pinyin_list:
        print("%s," % pinyin.getShengmu(), end=" ")

運行之后,效果如下:

輸出聲母

這里我們用getShengmu()方法輸出聲母,方法名就是中文意思,很好理解。

輸出韻母

接著,我們再來輸出韻母。代碼如下:

if __name__ == "__main__":
    Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin")
    text = "重載不是體重"
    pinyin_list = HanLP.convertToPinyinList(text)
    print(pinyin_list)
    print("\r\n輸出韻母")
    for pinyin in pinyin_list:
        print("%s," % pinyin.getYunmu(), end=" ")

運行之后,效果如下:

輸出韻母

這里我們用getYunmu()方法輸出韻母,方法名就是中文意思,很好理解。

處理數(shù)字拼音

除此之外,上面因為都是漢字,所以大家肯定都很好處理成拼音。但是現(xiàn)在很多時候,中文文本里面并不僅僅只有漢字,也有數(shù)字和英文。但是拼音是漢字獨有的,那怎么辦呢?

我們先來看看按上面直接處理帶數(shù)字與英文時,效果怎么樣。代碼如下所示:

if __name__ == "__main__":
    Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin")
    text = "我們到2035年就會稱為世界第一"
    pinyin_list = HanLP.convertToPinyinList(text)
    print(pinyin_list)

運行之后,效果如下:

輸出none

可以看到數(shù)字都直接替換為none5,也就是缺失的意義。拼音文件找不到與其匹配的漢語拼音。

而我們實際在處理中文文檔時,都是保留數(shù)字與英文的并不直接翻譯。其實這里我們想保留其數(shù)字的話,HanLP.convertToPinyinString()方法就能實現(xiàn),我們來看看這個方法的完整定義:

convertToPinyinString(轉(zhuǎn)換為拼音的字符串文本,輸出間隔符,布爾類型)

相信看了上面方法的讀者應(yīng)該很快就知道了,第3個布爾類型就是轉(zhuǎn)換數(shù)字與保留數(shù)字的關(guān)鍵參數(shù),這里我們再來變換代碼:

if __name__ == "__main__":
    Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin")
    text = "我們到2035年就會稱為世界第一"
    pinyin_list = HanLP.convertToPinyinString(text," ",False)
    print(pinyin_list)

運行之后,我們的英文與數(shù)字就會原封不動的保留下來。效果如下:

輸出數(shù)字

到此這篇關(guān)于Python實現(xiàn)拼音轉(zhuǎn)換的文章就介紹到這了,更多相關(guān)Python 拼音轉(zhuǎn)換內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python合并Excel中sheet表的示例代碼

    Python合并Excel中sheet表的示例代碼

    這篇文章主要為大家詳細(xì)介紹了如何利用Python實現(xiàn)將Excel中的五個表合成一個表,文中的示例代碼簡潔易懂,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下
    2023-11-11
  • python?reshape和transpose的區(qū)別小結(jié)

    python?reshape和transpose的區(qū)別小結(jié)

    reshape()?和?transpose()?是用于改變數(shù)組或張量形狀的兩種不同方法,本文主要介紹了python?reshape和transpose的區(qū)別小結(jié),具有一定參考價值,感興趣的可以了解一下
    2024-02-02
  • Python執(zhí)行dos和Linux命令的方法詳解

    Python執(zhí)行dos和Linux命令的方法詳解

    在實際開發(fā)中,有時為了方便,可能需要執(zhí)行dos命令或者Linux命令。比如說執(zhí)行某些shell腳本,上傳下載一些文件等。本文總結(jié)了一些Python執(zhí)行dos和Linux命令的方法,需要的可以了解一下
    2022-10-10
  • Python處理字符串的常用函數(shù)實例總結(jié)

    Python處理字符串的常用函數(shù)實例總結(jié)

    在數(shù)據(jù)分析中,特別是文本分析中,字符處理需要耗費極大的精力,因而了解字符處理對于數(shù)據(jù)分析而言,也是一項很重要的能力,這篇文章主要給大家介紹了關(guān)于Python處理字符串的常用函數(shù),需要的朋友可以參考下
    2021-11-11
  • 在Python中進(jìn)行自動化單元測試的教程

    在Python中進(jìn)行自動化單元測試的教程

    這篇文章主要介紹了在Python中進(jìn)行自動化單元測試的教程,本文來自于IBM官方文檔,需要的朋友可以參考下
    2015-04-04
  • PyTorch的SoftMax交叉熵?fù)p失和梯度用法

    PyTorch的SoftMax交叉熵?fù)p失和梯度用法

    今天小編就為大家分享一篇PyTorch的SoftMax交叉熵?fù)p失和梯度用法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • python解決方案:WindowsError: [Error 2]

    python解決方案:WindowsError: [Error 2]

    使用Python的rename()函數(shù)重命名文件時出現(xiàn)問題,提示 WindowsError: [Error 2] 錯誤,需要的朋友可以參考下
    2016-08-08
  • Python英文單詞大小寫轉(zhuǎn)換常用方法示例

    Python英文單詞大小寫轉(zhuǎn)換常用方法示例

    這篇文章主要為大家介紹了Python英文單詞大小寫轉(zhuǎn)換常用方法示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2024-01-01
  • Django 表單模型選擇框如何使用分組

    Django 表單模型選擇框如何使用分組

    這篇文章主要介紹了Django 表單模型選擇框如何使用分組,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2019-05-05
  • 使用grpc實現(xiàn)golang后端和python服務(wù)間通信

    使用grpc實現(xiàn)golang后端和python服務(wù)間通信

    gRPC是Google 開發(fā)的高性能、開源的遠(yuǎn)程過程調(diào)用(RPC)框架,本文主要為大家詳細(xì)介紹了如何使用grpc實現(xiàn)golang后端和python服務(wù)間通信,感興趣的可以了解下
    2024-03-03

最新評論