TF-IDF與余弦相似性的應(yīng)用(二) 找出相似文章
上一次,我用TF-IDF算法自動提取關(guān)鍵詞。
今天,我們再來研究另一個相關(guān)的問題。有些時候,除了找到關(guān)鍵詞,我們還希望找到與原文章相似的其他文章。比如,"Google新聞"在主新聞下方,還提供多條相似的新聞。
為了簡單起見,我們先從句子著手。
句子A:我喜歡看電視,不喜歡看電影。
句子B:我不喜歡看電視,也不喜歡看電影。
請問怎樣才能計(jì)算上面兩句話的相似程度?
基本思路是:如果這兩句話的用詞越相似,它們的內(nèi)容就應(yīng)該越相似。因此,可以從詞頻入手,計(jì)算它們的相似程度。
第一步,分詞。
句子A:我/喜歡/看/電視,不/喜歡/看/電影。
句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。
第二步,列出所有的詞。
我,喜歡,看,電視,電影,不,也。
第三步,計(jì)算詞頻。
句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。
句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。
第四步,寫出詞頻向量。
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]
到這里,問題就變成了如何計(jì)算這兩個向量的相似程度。
我們可以把它們想象成空間中的兩條線段,都是從原點(diǎn)([0, 0, ...])出發(fā),指向不同的方向。兩條線段之間形成一個夾角,如果夾角為 0 度,意味著方向相同、線段重合;如果夾角為 90 度,意味著形成直角,方向完全不相似;如果夾角為 180 度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。
以二維空間為例,上圖的a和b是兩個向量,我們要計(jì)算它們的夾角θ。余弦定理告訴我們,可以用下面的公式求得:
假定a向量是[x1, y1],b向量是[x2, y2],那么可以將余弦定理改寫成下面的形式:
數(shù)學(xué)家已經(jīng)證明,余弦的這種計(jì)算方法對n維向量也成立。假定A和B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的余弦等于:
使用這個公式,我們就可以得到,句子A與句子B的夾角的余弦。
余弦值越接近1,就表明夾角越接近 0 度,也就是兩個向量越相似,這就叫”余弦相似性”。所以,上面的句子A和句子B是很相似的,事實(shí)上它們的夾角大約為 20.3 度。
由此,我們就得到了”找出相似文章”的一種算法:
(1)使用 TF-IDF 算法,找出兩篇文章的關(guān)鍵詞;
(2)每篇文章各取出若干個關(guān)鍵詞(比如 20 個),合并成一個集合,計(jì)算每篇文章對于這個集合中的詞的詞頻(為了避免文章長度的差異,可以使用相對詞頻);
(3)生成兩篇文章各自的詞頻向量;
(4)計(jì)算兩個向量的余弦相似度,值越大就表示越相似。
“余弦相似度”是一種非常有用的算法,只要是計(jì)算兩個向量的相似程度,都可以采用它。
下一次,我想談?wù)勅绾卧谠~頻統(tǒng)計(jì)的基礎(chǔ)上,自動生成一篇文章的摘要。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Scrapy基于selenium結(jié)合爬取淘寶的實(shí)例講解
今天小編就為大家分享一篇Scrapy基于selenium結(jié)合爬取淘寶的實(shí)例講解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-06-06把項(xiàng)目從Python2.x移植到Python3.x的經(jīng)驗(yàn)總結(jié)
這篇文章主要介紹了把項(xiàng)目從Python2.x移植到Python3.x的經(jīng)驗(yàn)總結(jié),包括作者所使用的Jinja2框架中一些需要注意的地方,需要的朋友可以參考下2015-04-04python量化之搭建Transformer模型用于股票價格預(yù)測
這篇文章主要介紹了python量化之搭建Transformer模型用于股票價格預(yù)測,文章圍繞主題展開基于python搭建Transformer,需要的小伙伴可以參考一下2022-05-05Python3如何根據(jù)函數(shù)名動態(tài)調(diào)用函數(shù)
這篇文章主要介紹了Python3如何根據(jù)函數(shù)名動態(tài)調(diào)用函數(shù)問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-11-11pandas使用get_dummies進(jìn)行one-hot編碼的方法
今天小編就為大家分享一篇pandas使用get_dummies進(jìn)行one-hot編碼的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-07-07python讀取浮點(diǎn)數(shù)和讀取文本文件示例
這篇文章主要介紹了python讀取浮點(diǎn)數(shù)和讀取文本文件示例,需要的朋友可以參考下2014-05-05