快捷導(dǎo)航

PHP簡單實現(xiàn)“相關(guān)文章推薦”功能的方法

更新時間：2014年07月19日 09:39:32 投稿：shichen2014

這篇文章主要介紹了PHP簡單實現(xiàn)“相關(guān)文章推薦”功能的方法,方法簡單功能實用,需要的朋友可以參考下

通常在做內(nèi)容網(wǎng)站的時候，需要在每一篇文章中出現(xiàn)與該文章相關(guān)的文章列表。對于大多數(shù)人來說，使用的方法通常是：建立一個關(guān)鍵詞列表，判斷每篇文章包含有那些關(guān)鍵詞，最后根據(jù)關(guān)鍵詞找出與某篇文章最相關(guān)的文章。對于內(nèi)容比較復(fù)雜的網(wǎng)站，確定關(guān)鍵列表詞顯然會比較麻煩。

本文介紹了與以往方法不同的similar_text（php4,php5）函數(shù)來方便的達到我們的預(yù)期要求。具體的思路是：從文章列表中取出所有的文章標(biāo)題，將所有的文章標(biāo)題都同當(dāng)前標(biāo)題對比，將對比結(jié)果生成一個數(shù)組，按照相似度的大小由大到標(biāo)題，利用similar_text將這些文章標(biāo)題同原文章標(biāo)題做對比，按標(biāo)題的相似程度重新排列標(biāo)題，就得到了與原文章相似的文章列表。

這個思路用到的關(guān)鍵函數(shù)是：

int similar_text ( string $first, string $second[, float $percent] )

它返回的是兩個字根串的相同字節(jié)數(shù)。

按照這個思路，我們建立如下的函數(shù)，這個函數(shù)的功能是把$arr_title數(shù)組按照同$title相似的的順序重新排列數(shù)組。

<?php 
$demo_title= "簡明現(xiàn)代魔法"; 
$demo_arr_title= array("簡單易懂的現(xiàn)代魔法","簡單明了的現(xiàn)代魔法","簡明扼要的古代魔法","不簡單的現(xiàn)代魔法","很難懂的現(xiàn)代魔法"); 
$new_array= getSimilar($demo_title,$demo_arr_title); 
//print_r($new_array); 
echo"與[$demo_title]最相關(guān)的前三個文章是：<br/>"; 
for($j=0; $j<=2; $j++) 
{ 
echo($j+1).":".$new_array[$j]."<br/>"; 
} 
//$title當(dāng)前標(biāo)題，$arrayTitle為需要查找的數(shù)組 
functiongetSimilar($title,$arr_title) 
{ 
$arr_len= count($arr_title); 
for($i=0; $i<=($arr_len-1); $i++) 
{ 
//取得兩個字符串相似的字節(jié)數(shù) 
$arr_similar[$i] = similar_text($arr_title[$i],$title); 
} 
arsort($arr_similar); //按照相似的字節(jié)數(shù)由高到低排序 
reset($arr_similar); //將指針移到數(shù)組的第一單元 
$index= 0; 
foreach($arr_similaras$old_index=>$similar) 
{ 
$new_title_array[$index] = $arr_title[$old_index]; 
$index++; 
} 
return$new_title_array; 
} 
?>

程序運行結(jié)果：

與[簡明現(xiàn)代魔法]最相關(guān)的前三個文章是： 
1:簡單明了的現(xiàn)代魔法 
2:簡單易懂的現(xiàn)代魔法 
3:簡明扼要的古代魔法

有些需要注意的地方：

關(guān)于similar_text速度，有人做過這個一個測試，結(jié)果是：

The speed issues for similar_text seem to be only an issue for long sections of text (>20000 chars).

I found a huge performance improvement in my application by just testing if the string to be tested was less than 20000 chars before calling similar_text.

20000+ took 3-5 secs to process, anything else (10000 and below) took a fraction of a second. Fortunately for me, there was only a handful of instances with >20000 chars which I couldn't get a comparison % for.

如果要直接使用正文作對比速度可能會比較慢。

據(jù)說這個函數(shù)用于英文的效果不太好（感興趣的讀者可以自行嘗試）。用于英文時可以將英文句子用空格分開成多個單詞后再寫一個類似于similar_text的函數(shù)。

另外，如果句子中含有比較多“的”、“了”等非關(guān)鍵詞字符時，得到的結(jié)果可能會不太理想。

您可能感興趣的文章: