Python查找文件中包含中文的行方法
前言
近幾天在做多語言版本的時(shí)候再次發(fā)現(xiàn),區(qū)分各種語言真的是一件比較困難的事情,上一次做中文提取工具的就花了不少時(shí)間,這次決定用python試一試,結(jié)果寫起來發(fā)現(xiàn)真是方便不少,自己整理了一下方便以后查找使用。
代碼
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # find the line of containing chinese in files __author__ = 'AlbertS' import re def start_find_chinese(): find_count = 0; with open('ko_untranslated.txt', 'wb') as outfile: with open('source_ko.txt', 'rb') as infile: while True: content = infile.readline() if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')): outfile.write(content) find_count += 1; if not content: return find_count # start to find if __name__ == '__main__': count = start_find_chinese() print("find complete! count =", count)
原始文件
source_ko.txt文件內(nèi)容
3 캐릭터 Lv.50 달성 8 캐릭터 Lv.80 달성 10 캐릭터 Lv.90 달성 ... ... 2840 飛黃騰達(dá) 4841 同歸于盡 8848 캐릭터 Lv.50 달
運(yùn)行效果(ko_untranslated.txt文件)
2840 飛黃騰達(dá) 4841 同歸于盡
總結(jié)
1. 其實(shí)這段小小的代碼中包含了兩個(gè)常用的功能,那就是讀寫文件和正則表達(dá)式。
2. 這也是兩個(gè)重要的知識(shí)點(diǎn),其中with操作可能防止資源泄漏,操作起來更加方便。
3. 正則表達(dá)式可是一個(gè)文字處理的利器,代碼中的正則可能還不太完善,后續(xù)我會(huì)繼續(xù)補(bǔ)充更新。
以上這篇Python查找文件中包含中文的行方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
python神經(jīng)網(wǎng)絡(luò)ResNet50模型的復(fù)現(xiàn)詳解
這篇文章主要為大家介紹了python神經(jīng)網(wǎng)絡(luò)ResNet50模型的復(fù)現(xiàn)詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05python3環(huán)境搭建過程(利用Anaconda+pycharm)完整版
這篇文章主要介紹了python3環(huán)境搭建過程(利用Anaconda+pycharm)完整版,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-08-08Pytorch平均池化nn.AvgPool2d()使用方法實(shí)例
平均池化層,又叫平均匯聚層,下面這篇文章主要給大家介紹了關(guān)于Pytorch平均池化nn.AvgPool2d()使用方法的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-02-02讓Django的BooleanField支持字符串形式的輸入方式
這篇文章主要介紹了讓Django的BooleanField支持字符串形式的輸入方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-05-05Python標(biāo)準(zhǔn)庫之循環(huán)器(itertools)介紹
這篇文章主要介紹了Python標(biāo)準(zhǔn)庫之循環(huán)器(itertools)介紹,本文講解了無窮循環(huán)器、函數(shù)式工具、組合工具、groupby()、其它工具等內(nèi)容,需要的朋友可以參考下2014-11-11Python中urlencode()函數(shù)構(gòu)建URL查詢字符串的利器學(xué)習(xí)
這篇文章主要為大家介紹了Python中urlencode()函數(shù)構(gòu)建URL查詢字符串的利器學(xué)習(xí),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-10-10