用python做一個(gè)搜索引擎(Pylucene)的實(shí)例代碼
1.什么是搜索引擎?
搜索引擎是“對(duì)網(wǎng)絡(luò)信息資源進(jìn)行搜集整理并提供信息查詢服務(wù)的系統(tǒng),包括信息搜集、信息整理和用戶查詢?nèi)糠帧?。如圖1是搜索引擎的一般結(jié)構(gòu),信息搜集模塊從網(wǎng)絡(luò)采集信息到網(wǎng)絡(luò)信息庫之中(一般使用爬蟲);然后信息整理模塊對(duì)采集的信息進(jìn)行分詞、去停用詞、賦權(quán)重等操作后建立索引表(一般是倒排索引)構(gòu)成索引庫;最后用戶查詢模塊就可以識(shí)別用戶的檢索需求并提供檢索服務(wù)啦。
圖1 搜索引擎的一般結(jié)構(gòu)
2. 使用python實(shí)現(xiàn)一個(gè)簡單搜索引擎
2.1 問題分析
從圖1看,一個(gè)完整的搜索引擎架構(gòu)從互聯(lián)網(wǎng)搜集信息開始,可以使用python編寫一個(gè)爬蟲,這是python的強(qiáng)項(xiàng)。
接著,信息處理模塊。分詞?停用詞?倒排表?what?什么亂七八糟的?不用管它,我們有前輩們造好的輪子---Pylucene(lucene的python封裝版本,Lucene能夠幫助開發(fā)者為軟件、系統(tǒng)增添檢索功能。Lucene是一套用于全文檢索和搜尋的開源程序庫)。使用Pylucene可以簡單的幫助我們完成對(duì)采集到的信息進(jìn)行處理,包括索引的建立和搜索。
最后,為了能在網(wǎng)頁上使用我們的搜索引擎,我們使用flask這個(gè)輕量級(jí) Web 應(yīng)用框架做一個(gè)小網(wǎng)頁獲取搜索語句并反饋搜索結(jié)果。
2.2 爬蟲設(shè)計(jì)
主要搜集以下內(nèi)容:目標(biāo)網(wǎng)頁的標(biāo)題、目標(biāo)網(wǎng)頁的主要文字內(nèi)容、目標(biāo)網(wǎng)頁指向其他頁面的URL地址。網(wǎng)絡(luò)爬蟲的工作流程如圖2所。爬蟲的主要數(shù)據(jù)結(jié)構(gòu)是隊(duì)列。首先,起始的種子節(jié)點(diǎn)進(jìn)入隊(duì)列,然后從隊(duì)列中取出一個(gè)節(jié)點(diǎn)訪問,抓取該節(jié)點(diǎn)頁面上的目標(biāo)信息,再將該節(jié)點(diǎn)頁面指向其他頁面的URL鏈接放進(jìn)隊(duì)列,再從隊(duì)列中取出新的節(jié)點(diǎn)進(jìn)行訪問,直至隊(duì)列為空。通過隊(duì)列“先進(jìn)先出”的特點(diǎn)實(shí)現(xiàn)廣度優(yōu)先的遍歷算法,逐個(gè)訪問站點(diǎn)的每一頁面。
圖2
2.3 pylucene的使用
Pylucene中關(guān)于建立索引的類主要有Directory、Analyzer、IndexWriter、Document、Filed。
Directory是Pylucene中關(guān)于文件操作的類。它有SimpleFSDirectory和RAMDirectory、CompoundFileDirectory、FileSwitchDirectory等11個(gè)子類,列舉的四個(gè)是與索引目錄的保存相關(guān)的子類,SimpleFSDirectory是將構(gòu)建的索引保存至文件系統(tǒng)之中;RAMDirectory是將索引保存至RAM內(nèi)存之中;CompoundFileDirectory是一種復(fù)合的索引保存方式;而FileSwitchDirectory允許臨時(shí)切換索引的保存方式以發(fā)揮各種索引保存方式的優(yōu)點(diǎn)。
Analyzer,分析器。它是對(duì)爬蟲獲得的將要進(jìn)行構(gòu)建索引的文本進(jìn)行處理的類。包括了文本進(jìn)行分詞操作、去掉停用詞、轉(zhuǎn)換大小寫等操作。Pylucene自帶了若干分析器,構(gòu)建索引時(shí)也可使用第三方分析器或者自寫分析器。分析器的好壞關(guān)系到構(gòu)建索引的質(zhì)量與搜索服務(wù)的所能提供的精準(zhǔn)度與速度。
IndexWriter,索引寫入類。在Directory開辟的儲(chǔ)存空間中IndexWriter可以進(jìn)行索引的寫入、修改、增添、刪除等操作,但不可進(jìn)行索引的讀取也不能搜索索引。
Document,文檔類。在Pylucene中建立索引的基本單位是“文檔”(Document),一個(gè)Document可能是一個(gè)網(wǎng)頁、一篇文章、一封郵件。Document是用以構(gòu)建索引的單位同時(shí)也是進(jìn)行搜索時(shí)的結(jié)果單位,對(duì)它進(jìn)行合理的設(shè)計(jì)能夠提供個(gè)性化的搜索服務(wù)。
Filed,域類。一個(gè)Document之中可以包含多個(gè)域(Field)。Filed是Document的組成部分,就如一篇文章的組成可能是文章標(biāo)題、文章主體、作者、發(fā)表日期等多個(gè)Filed。
將一個(gè)頁面作為一個(gè)Document,包含三個(gè)Field分別是頁面的URL地址(url)、頁面的標(biāo)題(title)、頁面的主要文字內(nèi)容(content)。對(duì)于索引的儲(chǔ)存方式選擇使用SimpleFSDirectory類,將索引保存至文件之中。分析器選擇Pylucene自帶的CJKAnalyzer,該分析器對(duì)中文支持較好,適用于中文內(nèi)容的文本處理。
使用Pylucene構(gòu)建索引的具體操作步驟如下:
lucene.initVM() INDEXIDR = self.__index_dir indexdir = SimpleFSDirectory(File(INDEXIDR))① analyzer = CJKAnalyzer(Version.LUCENE_30)② index_writer = IndexWriter(indexdir, analyzer, True, IndexWriter.MaxFieldLength(512))③ document = Document()④ document.add(Field("content", str(page_info["content"]), Field.Store.NOT, Field.Index.ANALYZED))⑤ document.add(Field("url", visiting, Field.Store.YES, Field.Index.NOT_ANALYZED))⑥ document.add(Field("title", str(page_info["title"]), Field.Store.YES, Field.Index.ANALYZED))⑦ index_writer.addDocument(document)⑧ index_writer.optimize()⑨ index_writer.close()⑩
索引的構(gòu)建有10個(gè)主要的步驟:
①實(shí)例化一個(gè)SimpleFSDirectory對(duì)象,將索引保存至本地文件之中,保存的路徑為自定義的路徑“INDEXIDR”。
②實(shí)例化一個(gè)CJKAnalyzer分析器,實(shí)例化時(shí)的參數(shù)Version.LUCENE_30為Pylucene的版本號(hào)。
③實(shí)例化一個(gè)IndexWriter對(duì)象,所攜帶的四個(gè)參數(shù)分是前面的實(shí)例化的SimpleFSDirectory對(duì)象和CJKAnalyzer分析器,布爾型的變量true表示創(chuàng)建一個(gè)新的索引,IndexWriter.MaxFieldLength指定了一個(gè)索引最大的域(Filed)數(shù)量。
④實(shí)例化一個(gè)Document對(duì)象,取名為document。
⑤為document添加名稱為“content”的域。該域的內(nèi)容為爬蟲獲取的某一網(wǎng)頁頁面的主要文字內(nèi)容。該操作的參數(shù)是實(shí)例化并馬上使用的Field對(duì)象;Field對(duì)象的四個(gè)參數(shù)分別是:
(1)“content”,域的名稱。
(2)page_info["content"],爬蟲搜集到的網(wǎng)頁頁面的主要文字內(nèi)容。
(3)Field.Store是用于表示該域的值是否可以恢復(fù)原始字符的變量,F(xiàn)ield.Store.YES表示存儲(chǔ)在該域中的內(nèi)容可以恢復(fù)至原始文本內(nèi)容,F(xiàn)ield. Store.NOT表示不可恢復(fù)。
(4)Field.Index變量表示該域的內(nèi)容是否應(yīng)用分析器處理,F(xiàn)ield. Index.ANALYZED表示對(duì)該域字符處理使用分析器,F(xiàn)ield. Index. NOT_ANALYZED則表示不對(duì)該域使用分析器處理字符。
⑥添加名稱為“url”的域用以保存該頁面地址。
⑦添加名稱為“title”的域用以保存該頁面的標(biāo)題。
⑧實(shí)例化IndexWriter對(duì)像將文檔document寫入索引文件。
⑨優(yōu)化索引庫文件,合并索引庫中的小文件為大文件。
⑩單個(gè)周期內(nèi)構(gòu)建索引操作完成后關(guān)閉IndexWriter對(duì)像。
Pylucene關(guān)于建立索引的搜索的類主要有IndexSearcher、Query、QueryParser[16]。
IndexSearcher,索引搜索類。用于在IndexWriter構(gòu)建的索引庫中進(jìn)行搜索操作。
Query,描述查詢請(qǐng)求的類。它將查詢請(qǐng)求遞交給IndexSearcher完成搜索操作。Query擁有許多子類以完成不同的查詢請(qǐng)求。例如TermQuery是按詞條搜索,它是最基本最簡單的查詢類型,用來在指定域中匹配特定項(xiàng)的文檔;RangeQuery,指定范圍內(nèi)搜索,用于在指定域中匹配特定范圍內(nèi)的文檔;FuzzyQuery,一種模糊查詢,能夠簡單地識(shí)別近義詞匹配與查詢關(guān)鍵字語義相近的項(xiàng)。
QueryParser,Query解析器。需要實(shí)現(xiàn)不同的查詢需求時(shí)必須使用Query提供的不同子類,導(dǎo)致Query使用起來容易造成混亂。因而Pylucene還提供了Query語法解析器QueryParser。QueryParser能夠解析提交的Query語句,根據(jù)Query語法挑選合適Query子類完成相應(yīng)的查詢,開發(fā)者不必關(guān)心底層使用的是什么Query實(shí)現(xiàn)類。例如Query語句“關(guān)鍵字1 and 關(guān)鍵字2” QueryParser解析為查詢同時(shí)匹配關(guān)鍵字1和關(guān)鍵字2的文檔;Query語句“id[123 to 456]” QueryParser解析成為查詢名稱為“id”的域中的值在指定范圍“123”到“456”之間的文檔;Query語句“關(guān)鍵字 site:www.web.com”QueryParser解析成為查詢同時(shí)滿足名稱為“site”的域中值為“www.web.com” 和匹配“關(guān)鍵字”兩個(gè)查詢條件的文檔。
索引的搜索是Pylucene所專注的領(lǐng)域之一,為實(shí)現(xiàn)索引的搜索編寫了一個(gè)名為query的類,query實(shí)現(xiàn)索引的搜索有以下主要步驟:
lucene.initVM() if query_str.find(":") ==-1 and query_str.find(":") ==-1: query_str="title:"+query_str+" OR content:"+query_str① indir= SimpleFSDirectory(File(self.__indexDir))② lucene_analyzer= CJKAnalyzer(Version.LUCENE_CURRENT)③ lucene_searcher= IndexSearcher(indir)④ my_query = QueryParser(Version.LUCENE_CURRENT,"title",lucene_analyzer).parse(query_str)⑤ total_hits = lucene_searcher.search(my_query, MAX)⑥ for hit in total_hits.scoreDocs:⑦ print"Hit Score: ", hit.score doc = lucene_searcher.doc(hit.doc) result_urls.append(doc.get("url").encode("utf-8")) result_titles.append(doc.get("title").encode("utf-8")) print doc.get("title").encode("utf-8") result = {"Hits": total_hits.totalHits, "url":tuple(result_urls), "title":tuple(result_titles)} return result
索引的搜索有7個(gè)主要的步驟:
①首先對(duì)搜索語句進(jìn)行判斷,若語句不是針對(duì)標(biāo)題或文章內(nèi)容進(jìn)行單一域的查詢,即不包含關(guān)鍵詞“title:”或“content:”時(shí)默認(rèn)搜索title和content兩個(gè)域。
②實(shí)例化一個(gè)SimpleFSDirectory對(duì)象,指定它的工作路徑為先前創(chuàng)建索引的路徑。
③實(shí)例化一個(gè)CJKAnalyzer分析器,搜索時(shí)使用的分析器應(yīng)與索引構(gòu)建時(shí)使用的分析器在類型版本上均一致。
④實(shí)例化一個(gè)IndexSearcher對(duì)象lucene_searcher,它的參數(shù)為第○2步的SimpleFSDirectory對(duì)象。
⑤實(shí)例化一個(gè)QueryParser對(duì)象my_query,它描述查詢請(qǐng)求,解析Query查詢語句。參數(shù)Version.LUCENE_CURRENT為pylucene的版本號(hào),“title”指默認(rèn)的搜索域,lucene_analyzer指定了使用的分析器,query_str是Query查詢語句。在實(shí)例化QueryParser前會(huì)對(duì)用戶搜索請(qǐng)求作簡單處理,若用戶指定了搜索某個(gè)域就搜索該域,若用戶未指定則同時(shí)搜索“title”和“content”兩個(gè)域。
⑥lucene_searcher進(jìn)行搜索操作,返回結(jié)果集total_hits。total_hits中包含結(jié)果總數(shù)totalHits,搜索結(jié)果的文檔集scoreDocs,scoreDocs中包括搜索出的文檔以及每篇文檔與搜索語句相關(guān)度的得分。
⑦lucene_searcher搜索出的結(jié)果集不能直接被Python處理,因而在搜索操作返回結(jié)果之前應(yīng)將結(jié)果由Pylucene轉(zhuǎn)為普通的Python數(shù)據(jù)結(jié)構(gòu)。使用For循環(huán)依次處理每個(gè)結(jié)果,將結(jié)果文檔按相關(guān)度得分高低依次將它們的地址域“url”的值放入Python列表result_urls,將標(biāo)題域“title”的值放入列表result_titles。最后將包含地址、標(biāo)題的列表和結(jié)果總數(shù)組合成一個(gè)Python“字典”,將最后處理的結(jié)果作為整個(gè)搜索操作的返回值。
用戶在瀏覽器搜索框輸入搜索詞并點(diǎn)擊搜索,瀏覽器發(fā)起一個(gè)GET請(qǐng)求,F(xiàn)lask的路由route設(shè)置了由result函數(shù)響應(yīng)該請(qǐng)求。result函數(shù)先實(shí)例化一個(gè)搜索類query的對(duì)象infoso,將搜索詞傳遞給該對(duì)象,infoso完成搜索將結(jié)果返回給函數(shù)result。函數(shù)result將搜索出來的頁面和結(jié)果總數(shù)等傳遞給模板result.html,模板result.html用于呈現(xiàn)結(jié)果
如下是Python使用flask模塊處理搜索請(qǐng)求的代碼:
app = Flask(__name__)#創(chuàng)建Flask實(shí)例 @app.route('/')#設(shè)置搜索默認(rèn)主頁 def index(): html="<h1>title這是標(biāo)題</h1>" return render_template('index.html') @app.route("/result",methods=['GET', 'POST'])#注冊路由,并指定HTTP方法為GET、POST def result(): #resul函數(shù) if request.method=="GET":#響應(yīng)GET請(qǐng)求 key_word=request.args.get('word')#獲取搜索語句 if len(key_word)!=0: infoso = query("./glxy") #創(chuàng)建查詢類query的實(shí)例 re = infoso.search(key_word)#進(jìn)行搜索,返回結(jié)果集 so_result=[] n=0 for item in re["url"]: temp_result={"url":item,"title":re["title"][n]}#將結(jié)果集傳遞給模板 so_result.append(temp_result) n=n+1 return render_template('result.html', key_word=key_word, result_sum=re["Hits"],result=so_result) else: key_word="" return render_template('result.html') if __name__ == '__main__': app.debug = True app.run()#運(yùn)行web服務(wù)
以上這篇用python做一個(gè)搜索引擎(Pylucene)的實(shí)例代碼就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
python 對(duì)象和json互相轉(zhuǎn)換方法
下面小編就為大家分享一篇python 對(duì)象和json互相轉(zhuǎn)換方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-03-03使用python爬取taptap網(wǎng)站游戲截圖的步驟
這篇文章主要介紹了使用python爬取taptap游戲截圖的步驟,幫助大家更好的理解和學(xué)習(xí)使用python進(jìn)行爬蟲,感興趣的朋友可以了解下2021-05-05基于Pydantic封裝的通用模型在API請(qǐng)求驗(yàn)證中的應(yīng)用詳解
這篇文章主要介紹了基于Pydantic封裝的通用模型在API請(qǐng)求驗(yàn)證中的應(yīng)用詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步早日升職加薪2023-05-05pandas 按日期范圍篩選數(shù)據(jù)的實(shí)現(xiàn)
這篇文章主要介紹了pandas 按日期范圍篩選數(shù)據(jù)的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-02-02python上下文管理器協(xié)議的實(shí)現(xiàn)
這篇文章主要介紹了python上下文管理器協(xié)議的實(shí)現(xiàn),在python中所有實(shí)現(xiàn)了上下文管理器協(xié)議的對(duì)象 都可以用使用with操作,with啟動(dòng)了對(duì)象的上下文管理器2022-06-06Python代碼集pathlib應(yīng)用之獲取指定目錄下的所有文件
這篇文章主要介紹了Python代碼集pathlib應(yīng)用之獲取指定目錄下的所有文件,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2023-03-03pytorch finetuning 自己的圖片進(jìn)行訓(xùn)練操作
這篇文章主要介紹了pytorch finetuning 自己的圖片進(jìn)行訓(xùn)練操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-06-06關(guān)于python中導(dǎo)入文件到list的問題
這篇文章主要介紹了關(guān)于python中導(dǎo)入文件到list的問題,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-10-10