快捷導(dǎo)航

python機器學(xué)習(xí)創(chuàng)建基于規(guī)則聊天機器人過程示例詳解

更新時間：2021年11月02日 11:28:38 作者：deephub

這篇文章主要為大家介紹了python實現(xiàn)基于規(guī)則聊天機器人的過程示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步早日升職加薪

聊天機器人

聊天機器人本身是一種機器或軟件，它通過文本或句子模仿人類交互。簡而言之，可以使用類似于與人類對話的軟件進行聊天。

為什么要嘗試創(chuàng)建聊天機器人？也許你對一個新項目感興趣，或者公司需要一個，或者想去拉投資。無論動機是什么，本文都將嘗試解釋如何創(chuàng)建一個簡單的基于規(guī)則的聊天機器人。

基于規(guī)則的聊天機器人

什么是基于規(guī)則的聊天機器人？它是一種基于特定規(guī)則來回答人類給出的文本的聊天機器人。由于它基于強加的規(guī)則所以這個聊天機器人生成的響應(yīng)幾乎是準(zhǔn)確的；但是，如果我們收到與規(guī)則不匹配的查詢，聊天機器人將不會回答。與它相對的另一個版本是基于模型的聊天機器人，它通過機器學(xué)習(xí)模型來回答給定的查詢。（二者的區(qū)別就是基于規(guī)則的需要我們指定每一條規(guī)則，而且基于模型的會通過訓(xùn)練模型自動生成規(guī)則，還記得我們上一篇的”機器學(xué)習(xí)介紹“嗎，“機器學(xué)習(xí)為系統(tǒng)提供無需明確編程就能根據(jù)經(jīng)驗自動學(xué)習(xí)和改進的能力?！保?/p>

基于規(guī)則的聊天機器人可能基于人類給出的規(guī)則，但這并不意味著我們不使用數(shù)據(jù)集。聊天機器人的主要目標(biāo)仍然是自動化人類提出的問題，所以我們還是需要數(shù)據(jù)來制定特定的規(guī)則。

在本文中，我們將利用余弦相似距離作為基礎(chǔ)開發(fā)基于規(guī)則的聊天機器人。余弦相似度是向量（特別是內(nèi)積空間的非零向量）之間的相似度度量，常用于度量兩個文本之間的相似度。

我們將使用余弦相似度創(chuàng)建一個聊天機器人，通過對比查詢與我們開發(fā)的語料庫之間的相似性來回答查詢提出的問題。這也是我們最初需要開發(fā)我們的語料庫的原因。

創(chuàng)建語料庫

對于這個聊天機器人示例，我想創(chuàng)建一個聊天機器人來回答有關(guān)貓的所有問題。為了收集關(guān)于貓的數(shù)據(jù)，我會從網(wǎng)上抓取它。

import bs4 as bs
import urllib.request#Open the cat web data page
cat_data = urllib.request.urlopen('https://simple.wikipedia.org/wiki/Cat').read()
#Find all the paragraph html from the web page
cat_data_paragraphs  = bs.BeautifulSoup(cat_data,'lxml').find_all('p')
#Creating the corpus of all the web page paragraphs
cat_text = ''
#Creating lower text corpus of cat paragraphs
for p in cat_data_paragraphs:
    cat_text += p.text.lower()
print(cat_text)

使用上面的代碼，會得到來自wikipedia頁面的段落集合。接下來，需要清理文本以去除括號編號和空格等無用的文本。

import re
cat_text = re.sub(r'\s+', ' ',re.sub(r'\[[0-9]*\]', ' ', cat_text))

上述代碼將從語料庫中刪除括號號。我特意沒有去掉這些符號和標(biāo)點符號，因為當(dāng)與聊天機器人進行對話時，這樣聽起來會很自然。

最后，我將根據(jù)之前創(chuàng)建的語料庫創(chuàng)建一個句子列表。

import nltk
cat_sentences = nltk.sent_tokenize(cat_text)

我們的規(guī)則很簡單：將聊天機器人的查詢文本與句子列表中的每一個文本之間的進行余弦相似性的度量，哪個結(jié)果產(chǎn)生的相似度最接近(最高余弦相似度)那么它就是我們的聊天機器人的答案。

創(chuàng)建一個聊天機器人

我們上面的語料庫仍然是文本形式，余弦相似度不接受文本數(shù)據(jù);所以需要將語料庫轉(zhuǎn)換成數(shù)字向量。通常的做法是將文本轉(zhuǎn)換為詞袋(單詞計數(shù))或使用TF-IDF方法(頻率概率)。在我們的例子中，我們將使用TF-IDF。

我將創(chuàng)建一個函數(shù)，它接收查詢文本，并根據(jù)以下代碼中的余弦相似性給出一個輸出。

讓我們看一下代碼。

from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
def chatbot_answer(user_query):
    
    #Append the query to the sentences list
    cat_sentences.append(user_query)    
    #Create the sentences vector based on the list
    vectorizer = TfidfVectorizer()
    sentences_vectors = vectorizer.fit_transform(cat_sentences)
    
    #Measure the cosine similarity and take the second closest index because the first index is the user query
    vector_values = cosine_similarity(sentences_vectors[-1], sentences_vectors)
    answer = cat_sentences[vector_values.argsort()[0][-2]]    
    #Final check to make sure there are result present. If all the result are 0, means the text input by us are not captured in the corpus
    input_check = vector_values.flatten()
    input_check.sort()
    
    if input_check[-2] == 0:
        return "Please Try again"
    else: 
        return answer

我們可以把上面的函數(shù)使用下面的流程圖進行表示：

最后，使用以下代碼創(chuàng)建一個簡單的回答交互。

print("Hello, I am the Cat Chatbot. What is your meow questions?:")
while(True):
    query = input().lower()
    if query not in ['bye', 'good bye', 'take care']:
        print("Cat Chatbot: ", end="")
        print(chatbot_answer(query))
        cat_sentences.remove(query)
    else:
        print("See You Again")
        break

上面的腳本將接收查詢，并通過我們之前開發(fā)的聊天機器人處理它們。

從上面的圖片中看到的，結(jié)果還是可以接受的，但有也有些奇怪的回答。但是我們要想到，目前只從一個數(shù)據(jù)源中得到的結(jié)果，并且也沒有做任何的優(yōu)化。如果我們用額外的數(shù)據(jù)集和規(guī)則來改進它，它肯定會更好地回答問題。

總結(jié)

聊天機器人項目是一個令人興奮的數(shù)據(jù)科學(xué)項目，因為它在許多領(lǐng)域都有幫助。在本文中，我們使用從網(wǎng)頁中獲取的數(shù)據(jù)，利用余弦相似度和TF-IDF，用Python創(chuàng)建了一個簡單的聊天機器人項目，真正的將我們的1個億的項目落地。其實這里面還有很多的改進：

向量化的選擇，除了TF-IDF還可以使用word2vec，甚至使用預(yù)訓(xùn)練的bert提取詞向量。

回答環(huán)節(jié)，其實就是通過某種特定的算法或者規(guī)則從我們的語料庫中搜索最匹配的答案，本文中使用的相似度top1的方法其實就是一個最簡單的類greedsearch的方法，對于答案結(jié)果的優(yōu)化還可以使用類beamsearch 的算法提取回答的匹配項。

等等很多

在端到端的深度學(xué)習(xí)興起之前，很多的聊天機器人都是這樣基于規(guī)則來運行的并且也有很多落地案例，如果你想快速的做一個POC展示，這種基于規(guī)則方法還是非常有用的。

方法，對于答案結(jié)果的優(yōu)化還可以使用類beamsearch 的算法提取回答的匹配項。

等等很多

在端到端的深度學(xué)習(xí)興起之前，很多的聊天機器人都是這樣基于規(guī)則來運行的并且也有很多落地案例，如果你想快速的做一個POC展示，這種基于規(guī)則方法還是非常有用的。

以上就是python實現(xiàn)基于規(guī)則聊天機器人過程示例詳解的詳細內(nèi)容，更多關(guān)于python實現(xiàn)基于規(guī)則聊天機器人的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

相關(guān)文章

22個Python的萬用公式分享
在大家的日常python程序的編寫過程中，都會有自己解決某個問題的解決辦法，或者是在程序的調(diào)試過程中，用來幫助調(diào)試的程序公式。小編通過幾十萬行代碼的總結(jié)處理，總結(jié)出了22個python萬用公式，可以幫助大家解決在日常的python編程中遇到的大多數(shù)問題，一起來看看吧
2022-12-12
Python實現(xiàn)word2Vec model過程解析
這篇文章主要介紹了Python實現(xiàn)word2Vec model過程解析,文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
2019-12-12
Python正則匹配判斷手機號是否合法的方法
今天小編就為大家分享一篇Python正則匹配判斷手機號是否合法的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-12-12
Python 給我一個鏈接西瓜視頻隨便下載爬蟲
這篇文章主要介紹了Python通過一個鏈接爬取西瓜視頻，本文給大家介紹的非常詳細，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2021-08-08
使用python+requests+pytest實現(xiàn)接口自動化
這篇文章主要介紹了使用python+requests+pytest實現(xiàn)接口自動化,在當(dāng)前互聯(lián)網(wǎng)產(chǎn)品迭代頻繁的背景下，回歸測試的時間越來越少，但接口自動化測試因其實現(xiàn)簡單、維護成本低，容易提高覆蓋率等特點，越來越受重視,需要的朋友可以參考下
2023-08-08
django寫用戶登錄判定并跳轉(zhuǎn)制定頁面的實例
今天小編就為大家分享一篇django寫用戶登錄判定并跳轉(zhuǎn)制定頁面的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-08-08
Python?Flask框架實現(xiàn)小紅書圖片無水印解析下載
這篇文章主要為大家介紹了Python?Flask框架實現(xiàn)小紅書圖片無水印解析下載,需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
2023-11-11
解決PIP安裝第三方庫報錯SSL: CERTIFICATE_VERIFY_FAILED問題
這篇文章主要介紹了解決PIP安裝第三方庫報錯SSL: CERTIFICATE_VERIFY_FAILED問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2024-01-01
這篇文章主要介紹了Python排序搜索基本算法之堆排序,結(jié)合實例形式詳細分析了堆排序的原理、Python實現(xiàn)方法及相關(guān)操作注意事項,需要的朋友可以參考下
2017-12-12