快捷導(dǎo)航

基于PHP實(shí)現(xiàn)敏感詞過濾功能

更新時(shí)間：2023年10月27日 10:06:46 作者：小柳666

后端同學(xué)在做一些社區(qū)論壇類型項(xiàng)目時(shí)候,可能會(huì)繞不開敏感詞的過濾這個(gè)功能,特別是在微信小程序中,如果主營(yíng)類目被定義為【社交】那么敏感詞、圖片、視頻的各種過濾功能是逃不掉的,否則是無法上線的,下面就以PHP代碼為例,分析一下這個(gè)功能的具體實(shí)現(xiàn)

需求分析

既然是敏感詞過濾，那么肯定是需要有一張敏感詞的數(shù)據(jù)表的。

大概就是上面這個(gè)樣子。

思路一

剛拿到需求我的第一實(shí)現(xiàn)思路就是，當(dāng)獲取到用戶提交的評(píng)論內(nèi)容以后，把數(shù)據(jù)庫中的每一個(gè)屏蔽詞都用正則去匹配一下。如果匹配到數(shù)據(jù)，那么就把匹配到的問題替換成 ** ，最后就把原文跟匹配完成的文字進(jìn)行存儲(chǔ)即可。大體的代碼可能是下面這個(gè)樣子。

    $str = '我愛中國(guó)，我是賣qiang的，請(qǐng)與我聯(lián)系';
    $pattern = '/賣qiang/i';
    $replacement = '**';
    echo preg_replace($pattern,$replacement,$str);

    //  輸出  我愛中國(guó)，我是**的，請(qǐng)與我聯(lián)系

上面的代碼是正確的，但是假如屏蔽詞的數(shù)量有幾千條，那么每一個(gè)詞都需要跟待匹配的文字匹配一遍，那就是幾千次，程序的執(zhí)行效率太差。

思路二一次匹配多個(gè)詞

既然一次匹配一個(gè)詞效率太低，那可以嘗試一次匹配多個(gè)詞。大致修改的代碼是下面這個(gè)樣子。

    $str = '我愛中國(guó)，我是賣qiang的，請(qǐng)與我聯(lián)系';
    $pattern = '/賣qiang|與我|非法|動(dòng)物|系/i';    //這里會(huì)追加很多個(gè)詞
    $replacement = '**';
    echo preg_replace($pattern,$replacement,$str);

    //  我愛中國(guó)，我是**的，請(qǐng)**聯(lián)**

這樣的話，幾千個(gè)屏蔽詞組成一個(gè)正則。匹配一次就可以完成字符串的替換。但是假如屏蔽詞的數(shù)量有十萬，那正則的這個(gè)變量肯定超出內(nèi)存報(bào)錯(cuò)了。這種情況下就需要分組進(jìn)行處理數(shù)據(jù)了。

$str = '我愛中國(guó)，我是賣qiang的，請(qǐng)與我聯(lián)系';
$block_arr = ['1','2','3',...,'100000'];
$sm_list = array_chunk($block_list, 1000);
foreach ($sm_list as $key => $value) {
    $pattern = "/" . implode("|",  array_column($list, 'word')) . "/i";    //這里會(huì)追加很多個(gè)詞
    $replacement = '**';
    $str = preg_replace($pattern,$replacement,$str);
}
echo $str;

//  我愛中國(guó)，我是**的，請(qǐng)**聯(lián)**

上面的代碼中，我們將一個(gè)無比巨大的數(shù)組，以1000為單位進(jìn)行拆分。然后批量的去替換掉目標(biāo)數(shù)據(jù)中可能存在的敏感詞。這樣就完成了敏感詞的過濾功能。