在Python的Flask框架中實(shí)現(xiàn)全文搜索功能
全文檢索引擎入門(mén)
灰常不幸的是,關(guān)系型數(shù)據(jù)庫(kù)對(duì)全文檢索的支持沒(méi)有被標(biāo)準(zhǔn)化。不同的數(shù)據(jù)庫(kù)通過(guò)它們自己的方式來(lái)實(shí)現(xiàn)全文檢索,而且SQLAlchemy在全文檢索上也沒(méi)有提供一個(gè)好的抽象。
我們現(xiàn)在使用SQLite作為我們的數(shù)據(jù)庫(kù),所以我們可以繞開(kāi)SQLAlchemy而使用SQLite提供的工具來(lái)創(chuàng)建一個(gè)全文檢索索引。但這么做不怎么好,因?yàn)槿绻幸惶煳覀儞Q用別的數(shù)據(jù)庫(kù),那么我們就得重寫(xiě)另一個(gè)數(shù)據(jù)庫(kù)的全文檢索方法。
所以我們的方案是,我們將讓我們現(xiàn)有的數(shù)據(jù)庫(kù)處理常規(guī)數(shù)據(jù),然后我們創(chuàng)建一個(gè)專(zhuān)門(mén)的數(shù)據(jù)庫(kù)來(lái)解決全文檢索。
只有很少的開(kāi)源的全文檢索引擎。據(jù)我說(shuō)知只有一個(gè)Whoosh提供了Flask的擴(kuò)展,它是用Python語(yǔ)言寫(xiě)的全文檢索引擎。使用純Python引擎的優(yōu)點(diǎn)是它可以運(yùn)行在任何有Python解釋器的地方。缺點(diǎn)就是它的搜索性能沒(méi)有達(dá)到用C或者C++寫(xiě)的搜索引擎那么好。在我的腦子里理想的解決方案是有一個(gè)搜索引擎,它提供了Flask的擴(kuò)展,能連接大多數(shù)數(shù)據(jù)庫(kù),而且還要像Flask-SQLAlchemy那樣提供一個(gè)能自由使用大多數(shù)數(shù)據(jù)庫(kù)的方法,但現(xiàn)在貌似木有這樣的全文檢索引擎。Django的開(kāi)發(fā)者有一個(gè)非常棒的,支持大多數(shù)全文檢索引擎的擴(kuò)展,叫django-haystack。希望有一天某個(gè)家伙能為Flask提供一個(gè)相似的擴(kuò)展。
但現(xiàn)在,我們將通過(guò)Whoosh實(shí)現(xiàn)我們自己的全文檢索。我們將使用Flask-WhooshAlchemy擴(kuò)展,該擴(kuò)展使得Whoosh數(shù)據(jù)庫(kù)和Flask-SQLAlchemy模塊結(jié)合起來(lái)。
如果你還沒(méi)在你的虛擬環(huán)境中安裝Flask-WhooshAlchemy擴(kuò)展,馬上安裝它。
Windows用戶(hù)用以下命令安裝:
其他用戶(hù)用以下命令安裝:
配置
配置Flask-WhooshAlchemy灰常簡(jiǎn)單。我們只需要告訴擴(kuò)展全文檢索數(shù)據(jù)庫(kù)的名字即可(fileconfig.py):
WHOOSH_BASE = os.path.join(basedir, 'search.db')
修改模塊
在將Flask-WhooshAlchemy和Flask-SQLAlchemy結(jié)合起來(lái)時(shí),我們需要在合適的模塊類(lèi)(fileapp/models.py)指定哪些數(shù)據(jù)時(shí)需要被索引的:
from app import app import flask.ext.whooshalchemy as whooshalchemy class Post(db.Model): __searchable__ = ['body'] id = db.Column(db.Integer, primary_key = True) body = db.Column(db.String(140)) timestamp = db.Column(db.DateTime) user_id = db.Column(db.Integer, db.ForeignKey('user.id')) def __repr__(self): return '<Post %r>' % (self.text) whooshalchemy.whoosh_index(app, Post)
這個(gè)模塊有一個(gè)新的__searchable__字段,它是一個(gè)列表,包括了所有可以被當(dāng)做搜索索引的數(shù)據(jù)庫(kù)字段。在我們的項(xiàng)目里我們只需要所有文章帖子的body字段。
在這個(gè)模塊中,我們也必須通過(guò)調(diào)用whoosh_index這個(gè)方法來(lái)初始化全文索引。
這不是一個(gè)能影響我們關(guān)系型數(shù)據(jù)庫(kù)的改變,所以我們沒(méi)必要換新的數(shù)據(jù)庫(kù)。
不幸的是所有的博客文章在添加全文檢索引擎之前就已經(jīng)存在于數(shù)據(jù)庫(kù)中了,而且沒(méi)有被索引。為了保持?jǐn)?shù)據(jù)庫(kù)和全文檢索引擎的同步,我們將在數(shù)據(jù)庫(kù)中刪除所有已經(jīng)存在的博客文章,然后重新開(kāi)始。首先我們打開(kāi)Python解釋器。Windows用戶(hù)為以下內(nèi)容:
其它操作系統(tǒng)用戶(hù):
然后在Python命令提示符中刪除所有博客文章:
>>> from app.models import Post >>> from app import db >>> for post in Post.query.all(): ... db.session.delete(post) >>> db.session.commit()
搜索
現(xiàn)在我們開(kāi)始做搜索。首先,讓我們添加幾篇博客文章到數(shù)據(jù)庫(kù)。我們有兩種方法做這個(gè)事。我們可以像普通用戶(hù)一樣通過(guò)網(wǎng)頁(yè)打開(kāi)應(yīng)用程序添加文章,或者直接在Python命令行里添加。
用一下方法從命令行添加:
>>> from app.models import User, Post >>> from app import db >>> import datetime >>> u = User.query.get(1) >>> p = Post(body='my first post', timestamp=datetime.datetime.utcnow(), author=u) >>> db.session.add(p) >>> p = Post(body='my second post', timestamp=datetime.datetime.utcnow(), author=u) >>> db.session.add(p) >>> p = Post(body='my third and last post', timestamp=datetime.datetime.utcnow(), author=u) >>> db.session.add(p) >>> db.session.commit()
Flask-WhooshAlchemy這個(gè)擴(kuò)展非常不錯(cuò),因?yàn)樗苓B接Flask-SQLAlchemy然后自動(dòng)提交。我們不需要維護(hù)全文索引,因?yàn)樗呀?jīng)很明顯的幫我們做了這件事。
現(xiàn)在我們已經(jīng)在全文索引中有了一些文章,我們可以搜搜看了:
>>> Post.query.whoosh_search('post').all() [<Post u'my second post'>, <Post u'my first post'>, <Post u'my third and last post'>] >>> Post.query.whoosh_search('second').all() [<Post u'my second post'>] >>> Post.query.whoosh_search('second OR last').all() [<Post u'my second post'>, <Post u'my third and last post'>]
上面的例子可以看出,查詢(xún)不需要限制為一個(gè)單詞。實(shí)際上,Whoosh提供了一個(gè)漂亮又強(qiáng)大的搜索查詢(xún)語(yǔ)言(search query language)。
整合全文檢索到應(yīng)用程序
為了讓我們應(yīng)用程序的用戶(hù)能用上搜索功能,我們還需要增加一點(diǎn)小小的改變。
配置
就配置而言,我們僅僅需要指定最大的搜索結(jié)果返回?cái)?shù)(fileconfig.py):
MAX_SEARCH_RESULTS = 50
搜索表單
我們需要在頁(yè)面頂部的導(dǎo)航欄中增加一個(gè)搜索框。把搜索框放到頂部是極好的,因?yàn)檫@樣所有頁(yè)面就都有搜索框了(注:所有頁(yè)面公用導(dǎo)航欄)。
首先我們?cè)黾右粋€(gè)搜索表單類(lèi)(fileapp/forms.py):
class SearchForm(Form): search = TextField('search', validators = [Required()])
然后我們需要增加一個(gè)搜索表單對(duì)象,而且要讓它對(duì)所有模板可用,這么做是因?yàn)槲覀円獙⑺阉鞅韱畏诺剿许?yè)面的共同的導(dǎo)航欄。完成這個(gè)最簡(jiǎn)單的方法是在before_request handler上創(chuàng)建一個(gè)form,然后將它傳到Flask的全局變量g(fileapp/views.py):
@app.before_request def before_request(): g.user = current_user if g.user.is_authenticated(): g.user.last_seen = datetime.utcnow() db.session.add(g.user) db.session.commit() g.search_form = SearchForm()
然后我們添加form到我們的模板(fileapp/templates/base.html):
<div>Microblog: <a href="{{ url_for('index') }}">Home</a> {% if g.user.is_authenticated() %} | <a href="{{ url_for('user', nickname = g.user.nickname) }}">Your Profile</a> | <form style="display: inline;" action="{{url_for('search')}}" method="post" name="search">{{g.search_form.hidden_tag()}}{{g.search_form.search(size=20)}}<input type="submit" value="Search"></form> | <a href="{{ url_for('logout') }}">Logout</a> {% endif %} </div>
注意,我們只是當(dāng)有用戶(hù)登錄時(shí)才會(huì)顯示這個(gè)搜索框。同樣的,before_request handler只有在有用戶(hù)登錄時(shí)才會(huì)創(chuàng)建form,這是因?yàn)槲覀兊膽?yīng)用程序不會(huì)展示任何內(nèi)容給沒(méi)有經(jīng)過(guò)認(rèn)證的用戶(hù)。
搜索顯示方法(search view funciton)
上面我們已經(jīng)設(shè)置了form的action字段,它會(huì)發(fā)送所有的搜索請(qǐng)求到search view方法。這就是我們要執(zhí)行全文檢索查詢(xún)的地方(fileapp/views.py):
@app.route('/search', methods = ['POST']) @login_required def search(): if not g.search_form.validate_on_submit(): return redirect(url_for('index')) return redirect(url_for('search_results', query = g.search_form.search.data))
這個(gè)方法干的事也不是很多,它只是從表單收集了搜索查詢(xún)的字段,然后把這些字段作為參數(shù)傳給查詢(xún)方法,最后重定向到另一個(gè)頁(yè)面。不在這兒直接做查詢(xún)的原因是如果一個(gè)用戶(hù)點(diǎn)擊了刷新按鈕,那么瀏覽器就會(huì)彈出“表單數(shù)據(jù)將被重新提交”的警告窗口。所以當(dāng)一個(gè)POST請(qǐng)求的響應(yīng)結(jié)果為重定向的時(shí)候,這種警告提示就被避免了,因?yàn)橹囟ㄏ蛑鬄g覽器的刷新按鈕將會(huì)在重定向的頁(yè)面被重新載入。
搜索結(jié)果頁(yè)面
一旦一個(gè)查詢(xún)字段被接受,form POST handler就會(huì)通過(guò)頁(yè)面重定向把它發(fā)送到search_result handler(fileapp/views.py):
@app.route('/search_results/<query>') @login_required def search_results(query): results = Post.query.whoosh_search(query, MAX_SEARCH_RESULTS).all() return render_template('search_results.html', query = query, results = results)
然后搜索結(jié)果顯示方法會(huì)發(fā)送這個(gè)查詢(xún)到Whoosh,參數(shù)是最大的搜索結(jié)果數(shù)目,因?yàn)槲覀儾幌氤尸F(xiàn)一個(gè)很大數(shù)目的結(jié)果頁(yè)面,所以我們只顯示前50條數(shù)據(jù)。
最后一部分需要完成的是搜索結(jié)果的模板(fileapp/templates/search_results.html):
<!-- extend base layout --> {% extends "base.html" %} {% block content %} <h1>Search results for "{{query}}":</h1> {% for post in results %} {% include 'post.html' %} {% endfor %} {% endblock %}
這兒,我們又可以重新使用我們的post.html頁(yè)面,所以我們不用擔(dān)心替換一個(gè)新的頁(yè)面或者其他格式的頁(yè)面元素,因?yàn)樗羞@些在sub-template中都是通用的方法。
后記
我們現(xiàn)在就有了一個(gè)完整的、非常重要的、也是經(jīng)常被忽視的功能,這也是任何一個(gè)優(yōu)秀的web應(yīng)用必須具備的功能。
這個(gè)時(shí)刻更新的微博客應(yīng)用(換氣中···)的源碼你可以從這里找到:
- python實(shí)現(xiàn)全盤(pán)掃描搜索功能的方法
- Python模擬百度自動(dòng)輸入搜索功能的實(shí)例
- Python實(shí)現(xiàn)查找二叉搜索樹(shù)第k大的節(jié)點(diǎn)功能示例
- Python實(shí)現(xiàn)的本地文件搜索功能示例【測(cè)試可用】
- python實(shí)現(xiàn)手機(jī)通訊錄搜索功能
- python使用正則表達(dá)式的search()函數(shù)實(shí)現(xiàn)指定位置搜索功能
- Python中使用haystack實(shí)現(xiàn)django全文檢索搜索引擎功能
- 基于Python實(shí)現(xiàn)通過(guò)微信搜索功能查看誰(shuí)把你刪除了
- 利用Python通過(guò)獲取剪切板數(shù)據(jù)實(shí)現(xiàn)百度劃詞搜索功能
相關(guān)文章
表格梳理python內(nèi)置數(shù)學(xué)模塊math分析詳解
這篇文章主要為大家介紹了python內(nèi)置數(shù)學(xué)模塊math的分析詳解,文中通過(guò)表格梳理的方式以便讓大家在學(xué)習(xí)過(guò)程中一目望去清晰明了,有需要的朋友可以借鑒參考下2021-10-10keras.layers.Layer中無(wú)法定義name的問(wèn)題及解決
這篇文章主要介紹了keras.layers.Layer中無(wú)法定義name的問(wèn)題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-02-02Anaconda修改默認(rèn)虛擬環(huán)境安裝位置的方案分享
新安裝Anaconda后,在創(chuàng)建環(huán)境時(shí)環(huán)境自動(dòng)安裝在C盤(pán),但是C盤(pán)空間有限,下面這篇文章主要給大家介紹了關(guān)于Anaconda修改默認(rèn)虛擬環(huán)境安裝位置的相關(guān)資料,需要的朋友可以參考下2023-01-01Python序列之list和tuple常用方法以及注意事項(xiàng)
這篇文章主要介紹了Python序列之list和tuple常用方法以及注意事項(xiàng),sequence(序列)是一組有順序的對(duì)象的集合,序列可以包含一個(gè)或多個(gè)元素,也可以沒(méi)有任何元素,序列有兩種:list (表) 和 tuple(元組),需要的朋友可以參考下2015-01-01python異步實(shí)現(xiàn)定時(shí)任務(wù)和周期任務(wù)的方法
今天小編就為大家分享一篇python異步實(shí)現(xiàn)定時(shí)任務(wù)和周期任務(wù)的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-06-06python中關(guān)于py文件之間相互import的問(wèn)題及解決方法
這篇文章主要介紹了python中關(guān)于py文件之間相互import的問(wèn)題,本文用一個(gè)例子演示下如何解決python中循環(huán)引用的問(wèn)題,需要的朋友可以參考下2022-02-02Python多線程結(jié)合隊(duì)列下載百度音樂(lè)的方法
這篇文章主要介紹了Python多線程結(jié)合隊(duì)列下載百度音樂(lè)的方法,實(shí)例分析了Python多線程及文件下載的相關(guān)實(shí)現(xiàn)技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-07-07