欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

能讓你輕松的實現(xiàn)自然語言處理的5個Python庫

 更新時間:2021年05月19日 12:00:19   作者:deephub  
今天教大家如何你輕松的實現(xiàn)自然語言預(yù)處理,僅僅需要5個python庫,文中介紹的非常詳細,對正在學習python的小伙伴們有很好的幫助,需要的朋友可以參考下

一、前言

自然語言是指人類相互交流的語言,而自然語言處理是將數(shù)據(jù)以可理解的形式進行預(yù)處理,使計算機能夠理解的一種方法。簡單地說,自然語言處理(NLP)是幫助計算機用自己的語言與人類交流的過程。

自然語言處理是最廣泛的研究領(lǐng)域之一。許多大公司在這個領(lǐng)域投資很大。NLP為公司提供了機會,讓他們能夠根據(jù)消費者的情緒和文本很好地了解他們。NLP的一些最佳用例是檢測假電子郵件、對假新聞進行分類、情感分析、預(yù)測你的下一個單詞、自動更正、聊天機器人、個人助理等等。

解決任何NLP任務(wù)前要知道的7個術(shù)語

標記:它是將整個文本分割成小標記的過程。占卜是根據(jù)句子和單詞兩個基礎(chǔ)來完成的。

text = "Hello there, how are you doing today? The weather is great today. python is awsome"

##sentece tokenize (Separated by sentence)
['Hello there, how are you doing today?', 'The weather is great today.', 'python is awsome']
##word tokenizer (Separated by words)
['Hello', 'there', ',', 'how', 'are', 'you', 'doing', 'today', '?', 'The', 'weather', 'is', 'great', 'today', '.','python', 'is', 'awsome']

停止詞:一般來說,這些詞不會給句子增加太多的意義。在NLP中,我們刪除了所有的停止詞,因為它們對分析數(shù)據(jù)不重要。英語中總共有179個停止詞。

詞干提?。核峭ㄟ^去掉后綴和前綴將一個單詞還原為詞根的過程。

詞形還原:它的工作原理與詞干法相同,但關(guān)鍵的區(qū)別是它返回一個有意義的單詞。主要是開發(fā)聊天機器人、問答機器人、文本預(yù)測等。

WordNet:它是英語語言名詞、動詞、形容詞和副詞的詞匯數(shù)據(jù)庫或詞典,這些詞被分組為專門為自然語言處理設(shè)計的集合。

詞性標注:它是將一個句子轉(zhuǎn)換為一個元組列表的過程。每個元組都有一個形式(單詞、標記)。這里的標簽表示該單詞是名詞、形容詞還是動詞等等。

text = 'An sincerity so extremity he additions.'
--------------------------------
('An', 'DT'), ('sincerity', 'NN'), ('so', 'RB'), ('extremity', 'NN'), ('he', 'PRP'), ('additions', 'VBZ')]

詞袋:它是一個將文本轉(zhuǎn)換成某種數(shù)字表示的過程。比如獨熱編碼等。

sent1 = he is a good boy
sent2 = she is a good girl
            |
            |
        girl good boy   
sent1    0    1    1     
sent2    1    0    1

現(xiàn)在,讓我們回到我們的主題,看看可以幫助您輕松預(yù)處理數(shù)據(jù)的庫。

二、NLTK

毫無疑問,它是自然語言處理最好和使用最多的庫之一。NLTK是自然語言工具包的縮寫。由Steven Bird 和Edward Loper開發(fā)的。它帶有許多內(nèi)置的模塊,用于標記化、詞元化、詞干化、解析、分塊和詞性標記。它提供超過50個語料庫和詞匯資源。

安裝:pip install nltk

讓我們使用NLTK對給定的文本執(zhí)行預(yù)處理

import nltk
#nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re
ps = PorterStemmer()
text = 'Hello there,how are you doing today? I am Learning Python.'
text = re.sub("[^a-zA-Z0-9]"," ",text)
text = word_tokenize(text)
text_with_no_stopwords = [ps.stem(word) for word in text if word not in stopwords.words('english')]
text = " ".join(text_with_no_stopwords) 
text
-----------------------------------------------OUTPUT------------------------------------
'hello today I learn python'

三、TextBlob

Textblob是一個簡化的文本處理庫。它提供了一個簡單的API,用于執(zhí)行常見的NLP任務(wù),如詞性標記、情感分析、分類、翻譯等。

安裝:pip install textblob

四、spacy

這是python中最好用的自然語言處理庫之一,它是用cpython編寫的。它提供了一些預(yù)訓練的統(tǒng)計模型,并支持多達49種以上的語言進行標記化。它以卷積神經(jīng)網(wǎng)絡(luò)為特征,用于標記、解析和命名實體識別。

安裝:pip install spacy

import spacy
nlp = spacy.load('en_core_web_sm')
text = "I am Learning Python Nowdays"
text2 = nlp(text)
for token in text2:
  print(token,token.idx)
------------------------------OUTPUT-----------------------
I 0
am 2
Learning 5
Python 14
Nowdays 21

五、Gensim

它是一個Python庫,專門用于識別兩個文檔之間的語義相似性。它使用向量空間建模和主題建模工具包來尋找文檔之間的相似之處。它是設(shè)計用來處理大型文本語料庫的算法。

安裝:pip install gensim

六、CoreNLP

Stanford CoreNLP的目標是簡化對一段文本應(yīng)用不同語言工具的過程。這個庫運行速度非???,并且在開發(fā)中工作得很好。

安裝:pip install stanford-corenlp

到此這篇關(guān)于5個Python庫就能讓你輕松的實現(xiàn)自然語言預(yù)處理的文章就介紹到這了,更多相關(guān)Python庫自然語言預(yù)處理內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python 實現(xiàn)彈球游戲的示例代碼

    python 實現(xiàn)彈球游戲的示例代碼

    這篇文章主要介紹了python 實現(xiàn)彈球小游戲,幫助大家更好的理解和學習python,感興趣的朋友可以了解下
    2020-11-11
  • 對Python定時任務(wù)的啟動和停止方法詳解

    對Python定時任務(wù)的啟動和停止方法詳解

    今天小編就為大家分享一篇對Python定時任務(wù)的啟動和停止方法詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-02-02
  • Swift 3.0在集合類數(shù)據(jù)結(jié)構(gòu)上的一些新變化總結(jié)

    Swift 3.0在集合類數(shù)據(jù)結(jié)構(gòu)上的一些新變化總結(jié)

    與字符串類似,Swift3在數(shù)組和字典等結(jié)構(gòu)上也有改動,這里我們就來整理Swift 3.0在集合類數(shù)據(jù)結(jié)構(gòu)上的一些新變化總結(jié):
    2016-07-07
  • 為什么黑客都用python(123個黑客必備的Python工具)

    為什么黑客都用python(123個黑客必備的Python工具)

    python支持功能強大的黑客攻擊模塊,而且Python提供多種庫,用于支持黑客攻擊,Python提供了ctypes庫, 借助它, 黑客可以訪問Windows、OS X、Linux等系統(tǒng)提供 DLL與共享庫,還有Python語言易學易用,這對黑客攻擊而言是個巨大的優(yōu)勢。
    2020-01-01
  • Python打印詳細報錯日志,獲取報錯信息位置行數(shù)方式

    Python打印詳細報錯日志,獲取報錯信息位置行數(shù)方式

    這篇文章主要介紹了Python打印詳細報錯日志,獲取報錯信息位置行數(shù)方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-09-09
  • 一步步教你用Python實現(xiàn)2048小游戲

    一步步教你用Python實現(xiàn)2048小游戲

    相信2048這個游戲?qū)Υ蠹襾碚f一定不陌生,下面這篇文章就主要給大家介紹了怎么用Python實現(xiàn)2048小游戲,文中通過注釋與示例代碼介紹的很詳細,相信對大家的理解和學習具有一定的參考借鑒價值,有需要的朋友們一起來看看吧。
    2017-01-01
  • python讀取一個大于10G的txt文件的方法

    python讀取一個大于10G的txt文件的方法

    讀取文件是一個常用的功能,那么如何用python 讀取一個大于10G 的文件,需要的朋友們下面隨著小編來一起學習學習吧
    2021-05-05
  • python文件處理筆記之文本文件

    python文件處理筆記之文本文件

    相信大家在測試任務(wù)過程中都或多或少遇到自己處理文本文件的情況,這篇文章主要給大家介紹了關(guān)于python文件處理筆記之文本文件的相關(guān)資料,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考下
    2021-08-08
  • 詳解python 爬取12306驗證碼

    詳解python 爬取12306驗證碼

    這篇文章主要介紹了python爬取12306驗證碼,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-05-05
  • Pytorch中的torch.where函數(shù)使用

    Pytorch中的torch.where函數(shù)使用

    這篇文章主要介紹了Pytorch中的torch.where函數(shù)使用方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-02-02

最新評論