快捷導(dǎo)航

使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例

更新時間：2018年06月05日 15:14:25 作者：Johline

今天小編就為大家分享一篇使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

如下所示：

<strong><span style="font-size:14px;">文本過濾</span></strong>

result = re.sub(r'[^\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", content)#只保留中文和標(biāo)點(diǎn)

result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", content)#只保留中文和標(biāo)點(diǎn)和數(shù)字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和數(shù)字

文本去除兩個以上空格

content=re.sub(r'\s{2,}', '', content)

bas4編碼變成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", decodestr.decode())#只保留中文和標(biāo)點(diǎn)和數(shù)字 
 return result

文本去停用詞

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一個詞典，來彌補(bǔ)結(jié)巴分詞中沒有的詞語，從而保證更高的正確率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#關(guān)鍵詞提取，在這里對jieba的tfidf.py進(jìn)行了修改 
 return keyWord

以上這篇使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

對python中的 os.mkdir和os.mkdirs詳解
今天小編就為大家分享一篇對python中的 os.mkdir和os.mkdirs詳解，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-10-10
基于PyTorch實(shí)現(xiàn)EdgeCNN的實(shí)戰(zhàn)教程
本文我們將使用PyTorch來簡易實(shí)現(xiàn)一個EdgeCNN，不使用PyG庫，讓新手可以理解如何PyTorch來搭建一個簡易的圖網(wǎng)絡(luò)實(shí)例demo，感興趣的朋友跟隨小編一起看看吧
2023-02-02
Python Asyncio調(diào)度原理詳情
這篇文章主要介紹了Python Asyncio調(diào)度原理詳情，Python.Asyncio是一個大而全的庫，它包括很多功能，而跟核心調(diào)度相關(guān)的邏輯除了三種可等待對象外，還有其它一些功能，它們分別位于runners.py，base_event.py，event.py三個文件中
2022-06-06
Python檢查和同步本地時間(北京時間)的實(shí)現(xiàn)方法
這篇文章主要介紹了Python檢查和同步本地時間(北京時間)的實(shí)現(xiàn)方法,小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2018-12-12
Kmeans均值聚類算法原理以及Python如何實(shí)現(xiàn)
這個算法中文名為k均值聚類算法，首先我們在二維的特殊條件下討論其實(shí)現(xiàn)的過程，方便大家理解。
2020-09-09
python編碼問題匯總
這篇文章主要給大家分享的是python編碼問題匯總，字符編碼簡單介紹和發(fā)展史及使用方法的一些介紹，文章內(nèi)容詳細(xì)，具有一定的參考價值，需要的小伙伴可以參考一下
2022-03-03
Python抓取框架 Scrapy的架構(gòu)
這篇文章主要為大家詳細(xì)介紹了Python抓取框架，針對Scrapy的架構(gòu)進(jìn)行分析，感興趣的小伙伴們可以參考一下
2016-08-08
python實(shí)現(xiàn)從網(wǎng)絡(luò)下載文件并獲得文件大小及類型的方法
這篇文章主要介紹了python實(shí)現(xiàn)從網(wǎng)絡(luò)下載文件并獲得文件大小及類型的方法,涉及Python操作網(wǎng)絡(luò)文件的相關(guān)技巧,需要的朋友可以參考下
2015-04-04
Python 比較兩個數(shù)組的元素的異同方法
下面小編就為大家?guī)硪黄狿ython 比較兩個數(shù)組的元素的異同方法。小編覺得挺不錯的，現(xiàn)在就分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-08-08
Python 用matplotlib畫以時間日期為x軸的圖像
這篇文章主要介紹了Python 用matplotlib畫以時間日期為x軸的圖像，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-08-08