使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例
更新時間:2018年06月05日 15:14:25 作者:Johline
今天小編就為大家分享一篇使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
如下所示:
<strong><span style="font-size:14px;">文本過濾</span></strong>
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和標(biāo)點(diǎn)
result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和標(biāo)點(diǎn)和數(shù)字 result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和數(shù)字
文本去除兩個以上空格
content=re.sub(r'\s{2,}', '', content)
bas4編碼變成中文
def bas4_decode(bas4_content): decodestr= base64.b64decode(bas4_content) result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和標(biāo)點(diǎn)和數(shù)字 return result
文本去停用詞
def text_to_wordlist(text): result = re.sub(r'[^\u4e00-\u9fa5]', "",text) f1_seg_list = jieba.cut(result)#需要添加一個詞典,來彌補(bǔ)結(jié)巴分詞中沒有的詞語,從而保證更高的正確率 f_stop = codecs.open(".\stopword.txt","r","utf-8") try: f_stop_text = f_stop.read() finally: f_stop.close() f_stop_seg_list = f_stop_text.split() test_words = [] for myword in f1_seg_list: if myword not in f_stop_seg_list: test_words.append(myword) return test_words
文本特征提取
import jieba import jieba.analyse import numpy as np #import json import re def Textrank(content): result = re.sub(r'[^\u4e00-\u9fa5]', "",content) seg = jieba.cut(result) jieba.analyse.set_stop_words('stopword.txt') keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) return keyList def TF_IDF(content): result = re.sub(r'[^\u4e00-\u9fa5]', "",content) seg = jieba.cut(result) jieba.analyse.set_stop_words('stopword.txt') keyWord = jieba.analyse.extract_tags( '|'.join(seg), topK=10, withWeight=False, allowPOS=())#關(guān)鍵詞提取,在這里對jieba的tfidf.py進(jìn)行了修改 return keyWord
以上這篇使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
您可能感興趣的文章:
- python實(shí)現(xiàn)圖片處理和特征提取詳解
- python利用小波分析進(jìn)行特征提取的實(shí)例
- python實(shí)現(xiàn)LBP方法提取圖像紋理特征實(shí)現(xiàn)分類的步驟
- 使用python實(shí)現(xiàn)語音文件的特征提取方法
- Python實(shí)現(xiàn)的特征提取操作示例
- Python提取頻域特征知識點(diǎn)淺析
- Python + OpenCV 實(shí)現(xiàn)LBP特征提取的示例代碼
- python多進(jìn)程讀圖提取特征存npy
- 基于MATLAB和Python實(shí)現(xiàn)MFCC特征參數(shù)提取
- python利用opencv實(shí)現(xiàn)SIFT特征提取與匹配
相關(guān)文章
對python中的 os.mkdir和os.mkdirs詳解
今天小編就為大家分享一篇對python中的 os.mkdir和os.mkdirs詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-10-10基于PyTorch實(shí)現(xiàn)EdgeCNN的實(shí)戰(zhàn)教程
本文我們將使用PyTorch來簡易實(shí)現(xiàn)一個EdgeCNN,不使用PyG庫,讓新手可以理解如何PyTorch來搭建一個簡易的圖網(wǎng)絡(luò)實(shí)例demo,感興趣的朋友跟隨小編一起看看吧2023-02-02Python檢查和同步本地時間(北京時間)的實(shí)現(xiàn)方法
這篇文章主要介紹了Python檢查和同步本地時間(北京時間)的實(shí)現(xiàn)方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-12-12Kmeans均值聚類算法原理以及Python如何實(shí)現(xiàn)
這個算法中文名為k均值聚類算法,首先我們在二維的特殊條件下討論其實(shí)現(xiàn)的過程,方便大家理解。2020-09-09python實(shí)現(xiàn)從網(wǎng)絡(luò)下載文件并獲得文件大小及類型的方法
這篇文章主要介紹了python實(shí)現(xiàn)從網(wǎng)絡(luò)下載文件并獲得文件大小及類型的方法,涉及Python操作網(wǎng)絡(luò)文件的相關(guān)技巧,需要的朋友可以參考下2015-04-04Python 用matplotlib畫以時間日期為x軸的圖像
這篇文章主要介紹了Python 用matplotlib畫以時間日期為x軸的圖像,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-08-08