欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例

 更新時間:2018年06月05日 15:14:25   作者:Johline  
今天小編就為大家分享一篇使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

如下所示:

<strong><span style="font-size:14px;">文本過濾</span></strong> 
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和標(biāo)點(diǎn) 

result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和標(biāo)點(diǎn)和數(shù)字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和數(shù)字 

文本去除兩個以上空格

content=re.sub(r'\s{2,}', '', content)

bas4編碼變成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和標(biāo)點(diǎn)和數(shù)字 
 return result 

文本去停用詞

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一個詞典,來彌補(bǔ)結(jié)巴分詞中沒有的詞語,從而保證更高的正確率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words 

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#關(guān)鍵詞提取,在這里對jieba的tfidf.py進(jìn)行了修改 
 return keyWord

以上這篇使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • 對python中的 os.mkdir和os.mkdirs詳解

    對python中的 os.mkdir和os.mkdirs詳解

    今天小編就為大家分享一篇對python中的 os.mkdir和os.mkdirs詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • 基于PyTorch實(shí)現(xiàn)EdgeCNN的實(shí)戰(zhàn)教程

    基于PyTorch實(shí)現(xiàn)EdgeCNN的實(shí)戰(zhàn)教程

    本文我們將使用PyTorch來簡易實(shí)現(xiàn)一個EdgeCNN,不使用PyG庫,讓新手可以理解如何PyTorch來搭建一個簡易的圖網(wǎng)絡(luò)實(shí)例demo,感興趣的朋友跟隨小編一起看看吧
    2023-02-02
  • Python Asyncio調(diào)度原理詳情

    Python Asyncio調(diào)度原理詳情

    這篇文章主要介紹了Python Asyncio調(diào)度原理詳情,Python.Asyncio是一個大而全的庫,它包括很多功能,而跟核心調(diào)度相關(guān)的邏輯除了三種可等待對象外,還有其它一些功能,它們分別位于runners.py,base_event.py,event.py三個文件中
    2022-06-06
  • Python檢查和同步本地時間(北京時間)的實(shí)現(xiàn)方法

    Python檢查和同步本地時間(北京時間)的實(shí)現(xiàn)方法

    這篇文章主要介紹了Python檢查和同步本地時間(北京時間)的實(shí)現(xiàn)方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-12-12
  • Kmeans均值聚類算法原理以及Python如何實(shí)現(xiàn)

    Kmeans均值聚類算法原理以及Python如何實(shí)現(xiàn)

    這個算法中文名為k均值聚類算法,首先我們在二維的特殊條件下討論其實(shí)現(xiàn)的過程,方便大家理解。
    2020-09-09
  • python編碼問題匯總

    python編碼問題匯總

    這篇文章主要給大家分享的是python編碼問題匯總,字符編碼簡單介紹和發(fā)展史及使用方法的一些介紹,文章內(nèi)容詳細(xì),具有一定的參考價值,需要的小伙伴可以參考一下
    2022-03-03
  • Python抓取框架 Scrapy的架構(gòu)

    Python抓取框架 Scrapy的架構(gòu)

    這篇文章主要為大家詳細(xì)介紹了Python抓取框架,針對Scrapy的架構(gòu)進(jìn)行分析,感興趣的小伙伴們可以參考一下
    2016-08-08
  • python實(shí)現(xiàn)從網(wǎng)絡(luò)下載文件并獲得文件大小及類型的方法

    python實(shí)現(xiàn)從網(wǎng)絡(luò)下載文件并獲得文件大小及類型的方法

    這篇文章主要介紹了python實(shí)現(xiàn)從網(wǎng)絡(luò)下載文件并獲得文件大小及類型的方法,涉及Python操作網(wǎng)絡(luò)文件的相關(guān)技巧,需要的朋友可以參考下
    2015-04-04
  • Python 比較兩個數(shù)組的元素的異同方法

    Python 比較兩個數(shù)組的元素的異同方法

    下面小編就為大家?guī)硪黄狿ython 比較兩個數(shù)組的元素的異同方法。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-08-08
  • Python 用matplotlib畫以時間日期為x軸的圖像

    Python 用matplotlib畫以時間日期為x軸的圖像

    這篇文章主要介紹了Python 用matplotlib畫以時間日期為x軸的圖像,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-08-08

最新評論