Python中一些自然語言工具的使用的入門教程
NLTK 是使用 Python 教學(xué)以及實踐計算語言學(xué)的極好工具。此外,計算語言學(xué)與人工 智能、語言/專門語言識別、翻譯以及語法檢查等領(lǐng)域關(guān)系密切。
NLTK 包括什么
NLTK 會被自然地看作是具有棧結(jié)構(gòu)的一系列層,這些層構(gòu)建于彼此基礎(chǔ)之上。那些熟悉人工語言(比如 Python)的文法 和解析的讀者來說,理解自然語言模型中類似的 —— 但更深奧的 —— 層不會有太大困難。
術(shù)語表
全集(Corpora):相關(guān)文本的集合。例如,莎士比亞的作品可能被統(tǒng)稱為一個 文集(corpus); 而若干個作者的作品稱為 全集。
直方圖(Histogram):數(shù)據(jù)集中不同單詞、字母或其他條目的出現(xiàn)頻率的統(tǒng)計分布。
結(jié)構(gòu)(Syntagmatic):對語段的研究;也就是全集中字母、單詞或短語連續(xù)出現(xiàn)的統(tǒng)計關(guān)系。
上下文無關(guān)語法(Context-free grammar): 由四類形式語法構(gòu)成的 Noam Chomsky 層級中的第二類。參閱 參考資料 以獲得 詳盡描述。
盡管 NLTK 附帶了很多已經(jīng)預(yù)處理(通常是手工地)到不同程度的全集,但是概念上每一層 都是依賴于相鄰的更低層次的處理。首先是斷詞;然后是為單詞加上 標(biāo)簽;然后將成組 的單詞解析為語法元素,比如名詞短語或句子(取決于幾種技術(shù)中的某一種,每種技術(shù)都有其優(yōu)缺點); 最后對最終語句或其他語法單元進(jìn)行分類。通過這些步驟,NLTK 讓您可以生成關(guān)于不同元素出現(xiàn)情況 的統(tǒng)計,并畫出描述處理過程本身或統(tǒng)計合計結(jié)果的圖表。
在本文中,您將看到關(guān)于低層能力的一些相對完整的示例,而對大部分高層次能力將只是進(jìn)行簡單抽象的描述。 現(xiàn)在讓我們來詳細(xì)分析文本處理的首要步驟。
斷詞(Tokenization)
您可以使用 NLTK 完成的很多工作,尤其是低層的工作,與使用 Python 的基本數(shù)據(jù)結(jié)構(gòu)來完成相比,并 沒有 太 大的區(qū)別。不過,NLTK 提供了一組由更高的層所依賴和使用的系統(tǒng)化的接口,而不只是 簡單地提供實用的類來處理加過標(biāo)志或加過標(biāo)簽的文本。
具體講, nltk.tokenizer.Token 類被廣泛地用于存儲文本的有注解的片斷;這些 注解可以標(biāo)記很多不同的特性,包括詞類(parts-of-speech)、子標(biāo)志(subtoken)結(jié)構(gòu)、一個標(biāo)志(token) 在更大文本中的偏移位置、語形詞干 (morphological stems)、文法語句成分,等等。實際上,一個 Token 是一種 特別的字典 —— 并且以字典形式訪問 —— 所以它可以容納任何您希望的鍵。在 NLTK 中使用了一些專門的鍵, 不同的鍵由不同的子程序包所使用。
讓我們來簡要地分析一下如何創(chuàng)建一個標(biāo)志并將其拆分為子標(biāo)志:
清單 1. 初識 nltk.tokenizer.Token 類
>>> from nltk.tokenizer import * >>> t = Token(TEXT='This is my first test sentence') >>> WSTokenizer().tokenize(t, addlocs=True) # break on whitespace >>> print t['TEXT'] This is my first test sentence >>> print t['SUBTOKENS'] [<This>@[0:4c], <is>@[5:7c], <my>@[8:10c], <first>@[11:16c], <test>@[17:21c], <sentence>@[22:30c]] >>> t['foo'] = 'bar' >>> t <TEXT='This is my first test sentence', foo='bar', SUBTOKENS=[<This>@[0:4c], <is>@[5:7c], <my>@[8:10c], <first>@[11:16c], <test>@[17:21c], <sentence>@[22:30c]]> >>> print t['SUBTOKENS'][0] <This>@[0:4c] >>> print type(t['SUBTOKENS'][0]) <class 'nltk.token.SafeToken'>
概率(Probability)
對于語言全集,您可能要做的一件相當(dāng)簡單的事情是分析其中各種 事件(events) 的 頻率分布,并基于這些已知頻率分布做出概率預(yù)測。NLTK 支持多種基于自然頻率分布數(shù)據(jù)進(jìn)行概率預(yù)測的方法。 我將不會在這里介紹那些方法(參閱 參考資料 中列出的概率教程), 只要說明您肯定會 期望的那些與您已經(jīng) 知道的 那些(不止是顯而易見的 縮放比例/正規(guī)化)之間有著一些模糊的關(guān)系就夠了。
基本來講,NLTK 支持兩種類型的頻率分布:直方圖和條件頻率分布(conditional frequency)。 nltk.probability.FreqDist 類用于創(chuàng)建直方圖;例如, 可以這樣創(chuàng)建一個單詞直方圖:
清單 2. 使用 nltk.probability.FreqDist 創(chuàng)建基本的直方圖
>>> from nltk.probability import * >>> article = Token(TEXT=open('cp-b17.txt').read()) >>> WSTokenizer().tokenize(article) >>> freq = FreqDist() >>> for word in article['SUBTOKENS']: ... freq.inc(word['TEXT']) >>> freq.B() 1194 >>> freq.count('Python') 12
概率教程討論了關(guān)于更復(fù)雜特性的直方圖的創(chuàng)建,比如“以元音結(jié)尾的詞后面的詞的長度”。 nltk.draw.plot.Plot 類可用于直方圖的可視化顯示。當(dāng)然, 您也可以這樣分析高層次語法特性或者甚至是與 NLTK 無關(guān)的數(shù)據(jù)集的頻率分布。
條件頻率分布可能比普通的直方圖更有趣。條件頻率分布是一種二維直方圖 —— 它按每個初始條件或者“上下文”為您顯示 一個直方圖。例如,教程提出了一個對應(yīng)每個首字母的單詞長度分布問題。我們就以這樣分析:
清單 3. 條件頻率分布:對應(yīng)每個首字母的單詞長度
>>> cf = ConditionalFreqDist() >>> for word in article['SUBTOKENS']: ... cf[word['TEXT'][0]].inc(len(word['TEXT'])) ... >>> init_letters = cf.conditions() >>> init_letters.sort() >>> for c in init_letters[44:50]: ... print "Init %s:" % c, ... for length in range(1,6): ... print "len %d/%.2f," % (length,cf[c].freq(n)), ... print ... Init a: len 1/0.03, len 2/0.03, len 3/0.03, len 4/0.03, len 5/0.03, Init b: len 1/0.12, len 2/0.12, len 3/0.12, len 4/0.12, len 5/0.12, Init c: len 1/0.06, len 2/0.06, len 3/0.06, len 4/0.06, len 5/0.06, Init d: len 1/0.06, len 2/0.06, len 3/0.06, len 4/0.06, len 5/0.06, Init e: len 1/0.18, len 2/0.18, len 3/0.18, len 4/0.18, len 5/0.18, Init f: len 1/0.25, len 2/0.25, len 3/0.25, len 4/0.25, len 5/0.25,
條件頻率分布在語言方面的一個極好應(yīng)用是分析全集中的語段分布 —— 例如,給出一個特定的 詞,接下來最可能出現(xiàn)哪個詞。當(dāng)然,語法會帶來一些限制;不過,對句法選項的選擇的研究 屬于語義學(xué)、語用論和術(shù)語范疇。
詞干提取(Stemming)
nltk.stemmer.porter.PorterStemmer 類是一個用于從英文單詞中 獲得符合語法的(前綴)詞干的極其便利的工具。這一能力尤其讓我心動,因為我以前曾經(jīng)用 Python 創(chuàng)建了一個公用的、全文本索引的 搜索工具/庫(見 Developing a full-text indexer in Python 中的描述,它已經(jīng)用于相當(dāng)多的其他項目中)。
盡管對大量文檔進(jìn)行關(guān)于一組確切詞的搜索的能力是非常實用的( gnosis.indexer 所做的工作), 但是,對很多搜索用圖而言,稍微有一些模糊將會有所幫助。也許,您不能特別確定您正在尋找的電子郵件是否使用了單詞 “complicated”、“complications”、“complicating”或者“complicates”,但您卻記得那是大概涉及的內(nèi)容(可能與其他一些 詞共同來完成一次有價值的搜索)。
NLTK 中包括一個用于單詞詞干提取的極好算法,并且讓您可以按您的喜好定制詞干提取算法:
清單 4. 為語形根(morphological roots)提取單詞詞干
>>> from nltk.stemmer.porter import PorterStemmer >>> PorterStemmer().stem_word('complications') 'complic'
實際上,您可以怎樣利用 gnosis.indexer 及其衍生工具或者完全不同的索引工具中的詞干 提取功能,取決于您的使用情景。幸運的是,gnosis.indexer 有一個易于進(jìn)行專門定制的 開放接口。您是否需要一個完全由詞干構(gòu)成的索引?或者您是否在索引中同時包括完整的單詞 和詞干?您是否需要將結(jié)果中的詞干匹配從確切匹配中分離出來?在未來版本的 gnosis.indexer 中我將引入一些種類詞干的提取能力,不過,最終用戶可能仍然希望進(jìn)行不同的定制。
無論如何,一般來說添加詞干提取是非常簡單的:首先,通過特別指定 gnosis.indexer.TextSplitter 來從一個文檔中獲得詞干;然后, 當(dāng)然執(zhí)行搜索時,(可選地)在使用搜索條件進(jìn)行索引查找之前提取其詞干,可能是通過定制 您的 MyIndexer.find() 方法來實現(xiàn)。
在使用 PorterStemmer 時我發(fā)現(xiàn) nltk.tokenizer.WSTokenizer 類確實如教程所警告的那樣不好用。它可以勝任概念上的角色,但是對于實際的文本而言,您可以更好地識別出什么是一個 “單詞”。幸運的是, gnosis.indexer.TextSplitter 是一個健壯的斷詞工具。例如:
清單 5. 基于拙劣的 NLTK 斷詞工具進(jìn)行詞干提取
>>> from nltk.tokenizer import * >>> article = Token(TEXT=open('cp-b17.txt').read()) >>> WSTokenizer().tokenize(article) >>> from nltk.probability import * >>> from nltk.stemmer.porter import * >>> stemmer = PorterStemmer() >>> stems = FreqDist() >>> for word in article['SUBTOKENS']: ... stemmer.stem(word) ... stems.inc(word['STEM'].lower()) ... >>> word_stems = stems.samples() >>> word_stems.sort() >>> word_stems[20:40] ['"generator-bas', '"implement', '"lazili', '"magic"', '"partial', '"pluggable"', '"primitives"', '"repres', '"secur', '"semi-coroutines."', '"state', '"understand', '"weightless', '"whatev', '#', '#-----', '#----------', '#-------------', '#---------------', '#b17:']
查看一些詞干,集合中的詞干看起來并不是都可用于索引。很多根本不是實際的單詞,還有其他一些是 用破折號連接起來的組合詞,單詞中還被加入了一些不相干的標(biāo)點符號。讓我們使用更好的斷詞工具 來進(jìn)行嘗試:
清單 6. 使用斷詞工具中靈巧的啟發(fā)式方法來進(jìn)行詞干提取
>>> article = TS().text_splitter(open('cp-b17.txt').read()) >>> stems = FreqDist() >>> for word in article: ... stems.inc(stemmer.stem_word(word.lower())) ... >>> word_stems = stems.samples() >>> word_stems.sort() >>> word_stems[60:80] ['bool', 'both', 'boundari', 'brain', 'bring', 'built', 'but', 'byte', 'call', 'can', 'cannot', 'capabl', 'capit', 'carri', 'case', 'cast', 'certain', 'certainli', 'chang', 'charm']
在這里,您可以看到有一些單詞有多個可能的擴(kuò)展,而且所有單詞看起來都像是單詞或者詞素。 斷詞方法對隨機(jī)文本集合來說至關(guān)重要;公平地講,NLTK 捆綁的全集已經(jīng)通過 WSTokenizer() 打包為易用且準(zhǔn)確的斷詞工具。要獲得健壯的實際可用的索引器,需要使用健壯的斷詞工具。
添加標(biāo)簽(tagging)、分塊(chunking)和解析(parsing)
NLTK 的最大部分由復(fù)雜程度各不相同的各種解析器構(gòu)成。在很大程度上,本篇介紹將不會 解釋它們的細(xì)節(jié),不過,我愿意大概介紹一下它們要達(dá)成什么目的。
不要忘記標(biāo)志是特殊的字典這一背景 —— 具體說是那些可以包含一個 TAG 鍵以指明單詞的語法角色的標(biāo)志。NLTK 全集文檔通常有部分專門語言已經(jīng)預(yù)先添加了標(biāo)簽,不過,您當(dāng)然可以 將您自己的標(biāo)簽添加到?jīng)]有加標(biāo)簽的文檔。
分塊有些類似于“粗略解析”。也就是說,分塊工作的進(jìn)行,或者基于語法成分的已有標(biāo)志,或者基于 您手工添加的或者使用正則表達(dá)式和程序邏輯半自動生成的標(biāo)志。不過,確切地說,這不是真正的解析 (沒有同樣的生成規(guī)則)。例如:
清單 7. 分塊解析/添加標(biāo)簽:單詞和更大的單位
>>> from nltk.parser.chunk import ChunkedTaggedTokenizer >>> chunked = "[ the/DT little/JJ cat/NN ] sat/VBD on/IN [ the/DT mat/NN ]" >>> sentence = Token(TEXT=chunked) >>> tokenizer = ChunkedTaggedTokenizer(chunk_node='NP') >>> tokenizer.tokenize(sentence) >>> sentence['SUBTOKENS'][0] (NP: <the/DT> <little/JJ> <cat/NN>) >>> sentence['SUBTOKENS'][0]['NODE'] 'NP' >>> sentence['SUBTOKENS'][0]['CHILDREN'][0] <the/DT> >>> sentence['SUBTOKENS'][0]['CHILDREN'][0]['TAG'] 'DT' >>> chunk_structure = TreeToken(NODE='S', CHILDREN=sentence['SUBTOKENS']) (S: (NP: <the/DT> <little/JJ> <cat/NN>) <sat/VBD> <on/IN> (NP: <the/DT> <mat/NN>))
所提及的分塊工作可以由 nltk.tokenizer.RegexpChunkParser 類使用偽正則表達(dá)式來描述 構(gòu)成語法元素的一系列標(biāo)簽來完成。這里是概率教程中的一個例子:
清單 8. 使用標(biāo)簽上的正則表達(dá)式進(jìn)行分塊
>>> rule1 = ChunkRule('<DT>?<JJ.*>*<NN.*>', ... 'Chunk optional det, zero or more adj, and a noun') >>> chunkparser = RegexpChunkParser([rule1], chunk_node='NP', top_node='S') >>> chunkparser.parse(sentence) >>> print sent['TREE'] (S: (NP: <the/DT> <little/JJ> <cat/NN>) <sat/VBD> <on/IN> (NP: <the/DT> <mat/NN>))
真正的解析將引領(lǐng)我們進(jìn)入很多理論領(lǐng)域。例如,top-down 解析器可以確保找到每一個可能的產(chǎn)品,但 可能會非常慢,因為要頻繁地(指數(shù)級)進(jìn)行回溯。Shift-reduce 效率更高,但是可能會錯過一些產(chǎn)品。 不論在哪種情況下,語法規(guī)則的聲明都類似于解析人工語言的語法聲明。本專欄曾經(jīng)介紹了其中的一些: SimpleParse 、 mx.TextTools 、 Spark 和 gnosis.xml.validity (參閱 參考資料)。
甚至,除了 top-down 和 shift-reduce 解析器以外,NLTK 還提供了“chart 解析器”,它可以創(chuàng)建部分假定, 這樣一個給定的序列就可以繼而完成一個規(guī)則。這種方法可以是既有效又完全的。舉一個生動的(玩具級的)例子:
清單 9. 為上下文無關(guān)語法定義基本的產(chǎn)品
>>> from nltk.parser.chart import * >>> grammar = CFG.parse(''' ... S -> NP VP ... VP -> V NP | VP PP ... V -> "saw" | "ate" ... NP -> "John" | "Mary" | "Bob" | Det N | NP PP ... Det -> "a" | "an" | "the" | "my" ... N -> "dog" | "cat" | "cookie" ... PP -> P NP ... P -> "on" | "by" | "with" ... ''') >>> sentence = Token(TEXT='John saw a cat with my cookie') >>> WSTokenizer().tokenize(sentence) >>> parser = ChartParser(grammar, BU_STRATEGY, LEAF='TEXT') >>> parser.parse_n(sentence) >>> for tree in sentence['TREES']: print tree (S: (NP: <John>) (VP: (VP: (V: <saw>) (NP: (Det: <a>) (N: <cat>))) (PP: (P: <with>) (NP: (Det: <my>) (N: <cookie>))))) (S: (NP: <John>) (VP: (V: <saw>) (NP: (NP: (Det: <a>) (N: <cat>)) (PP: (P: <with>) (NP: (Det: <my>) (N: <cookie>))))))
probabilistic context-free grammar(或者說是 PCFG)是一種上下文無關(guān)語法, 它將其每一個產(chǎn)品關(guān)聯(lián)到一個概率。同樣,用于概率解析的解析器也捆綁到了 NLTK 中。
您在等待什么?
NLTK 還有其他本篇簡短介紹中不能涵蓋的重要功能。例如,NLTK 有一個完整的框架,用于通過類似于“naive Bayesian” 和“maximum entropy”等模型的統(tǒng)計技術(shù)進(jìn)行文本分類。 即使還有篇幅,現(xiàn)在我也還不能解釋其本質(zhì)。不過,我認(rèn)為,即使是 NLTK 較低的層,也可以成為一個既可用于教學(xué)應(yīng)用程序 也可用于實際應(yīng)用程序的實用框架。
相關(guān)文章
淺談python數(shù)據(jù)類型及類型轉(zhuǎn)換
這篇文章主要介紹了淺談python數(shù)據(jù)類型及類型轉(zhuǎn)換,介紹了python中的數(shù)據(jù)類型,以及數(shù)據(jù)的不可變性,還有字符串,列表等相關(guān)內(nèi)容,具有一定借鑒價值,需要的朋友可以參考下。2017-12-12安裝Python和pygame及相應(yīng)的環(huán)境變量配置(圖文教程)
下面小編就為大家?guī)硪黄惭bPython和pygame及相應(yīng)的環(huán)境變量配置(圖文教程)。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-06-06Python 合并多個TXT文件并統(tǒng)計詞頻的實現(xiàn)
這篇文章主要介紹了Python 合并多個TXT文件并統(tǒng)計詞頻的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-08-08pygame中blit()參數(shù)的使用及臟矩形動畫形成的說明
這篇文章主要介紹了pygame中blit()參數(shù)的使用及臟矩形動畫形成的說明,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-03-03Tensorflow實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的詳細(xì)代碼
這篇文章主要為大家詳細(xì)介紹了Tensorflow實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的詳細(xì)代碼,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-05-05利用Python Django實現(xiàn)簡單博客系統(tǒng)
這篇文章主要介紹了利用Python Django實現(xiàn)簡單博客系統(tǒng),文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)python的小伙伴們有很好地幫助,需要的朋友可以參考下2021-05-05Python數(shù)據(jù)分析之?Pandas?Dataframe條件篩選遍歷詳情
這篇文章主要介紹了Python數(shù)據(jù)分析之?Pandas?Dataframe條件篩選遍歷詳情,查詢Pandas?Dataframe數(shù)據(jù)時,經(jīng)常會篩選出符合條件的數(shù)據(jù),關(guān)于其使用方式,需要的小伙伴可以參考一下下面文章內(nèi)容2022-05-05