利用Python將文本中的中英文分離方法
在進(jìn)行文本分析、提取關(guān)鍵詞時(shí),新聞評(píng)論等文本通常是中英文及其他語(yǔ)言的混雜,若不加處理直接分析,結(jié)果往往差強(qiáng)人意。
下面對(duì)中英文文本進(jìn)行分離做一下總結(jié):
1、超短文本,ASCII識(shí)別。
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.該集團(tuán)總裁朱利安周二表示,中國(guó)聯(lián)想控股將分拆其多個(gè)業(yè)務(wù)部門(mén)在股市上市。" result = "".join(i for i in s if ord(i) < 256) print(result)
out: China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.
2、unicode編碼識(shí)別
import re s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.該集團(tuán)總裁朱利安周二表示,中國(guó)聯(lián)想控股將分拆其多個(gè)業(yè)務(wù)部門(mén)在股市上市。" uncn = re.compile(r'[\u0061-\u007a,\u0020]') en = "".join(uncn.findall(s.lower())) print(en)
out: chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday
中文的編碼范圍是:\u4e00-\u9fa5,相應(yīng)的[^\u4e00-\u9fa5]可匹配非中文。
匹配英文時(shí),需要將空格[\u0020]加入,不然單詞之間沒(méi)空格了。
以上這篇利用Python將文本中的中英文分離方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python采用Django制作簡(jiǎn)易的知乎日?qǐng)?bào)API
這篇文章主要為大家詳細(xì)介紹了Python采用Django制作簡(jiǎn)易的知乎日?qǐng)?bào)API,感興趣的小伙伴們可以參考一下2016-08-08python實(shí)現(xiàn)簡(jiǎn)單俄羅斯方塊
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)簡(jiǎn)單俄羅斯方塊,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-03-03python使用Tkinter顯示網(wǎng)絡(luò)圖片的方法
這篇文章主要介紹了python使用Tkinter顯示網(wǎng)絡(luò)圖片的方法,涉及Python操作圖片的相關(guān)技巧,需要的朋友可以參考下2015-04-04Python實(shí)現(xiàn)利用最大公約數(shù)求三個(gè)正整數(shù)的最小公倍數(shù)示例
這篇文章主要介紹了Python實(shí)現(xiàn)利用最大公約數(shù)求三個(gè)正整數(shù)的最小公倍數(shù),涉及Python數(shù)學(xué)運(yùn)算相關(guān)操作技巧,需要的朋友可以參考下2017-09-09python實(shí)現(xiàn)多人聊天服務(wù)器以及客戶端
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)多人聊天服務(wù)器以及客戶端,帶圖形化界面,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-07-07python將中文數(shù)字轉(zhuǎn)化成阿拉伯?dāng)?shù)字的簡(jiǎn)單方法
這篇文章主要給大家介紹了關(guān)于python如何將中文數(shù)字轉(zhuǎn)化成阿拉伯?dāng)?shù)字的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03Python使用線程來(lái)接收串口數(shù)據(jù)的示例
今天小編就為大家分享一篇Python使用線程來(lái)接收串口數(shù)據(jù)的示例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-07-07Scrapy爬蟲(chóng)Response子類在應(yīng)用中的問(wèn)題解析
這篇文章主要為大家介紹了Scrapy爬蟲(chóng)Response它的子類(TextResponse、HtmlResponse、XmlResponse)在應(yīng)用問(wèn)題解析2023-05-05使用python腳本檢查ssl證書(shū)到期時(shí)間
這篇文章主要為大家介紹了使用python腳本檢查ssl證書(shū)到期時(shí)間,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2024-01-01