欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

SpringBoot使用前綴樹(shù)過(guò)濾敏感詞的方法實(shí)例

 更新時(shí)間:2022年01月17日 14:33:29   作者:S?mile0804  
Trie也叫做字典樹(shù)、前綴樹(shù)(Prefix Tree)、單詞查找樹(shù),特點(diǎn):查找效率高,消耗內(nèi)存大,這篇文章主要給大家介紹了關(guān)于SpringBoot使用前綴樹(shù)過(guò)濾敏感詞的相關(guān)資料,需要的朋友可以參考下

一、前綴樹(shù)

一般設(shè)計(jì)網(wǎng)站的時(shí)候,會(huì)有問(wèn)題發(fā)布或者是內(nèi)容發(fā)布的功能,這些功能的有一個(gè)很重要的點(diǎn)在于如何實(shí)現(xiàn)敏感詞過(guò)濾,要不然可能會(huì)有不良信息的發(fā)布,或者發(fā)布的內(nèi)容中有夾雜可能會(huì)有惡意功能的代碼片段,敏感詞過(guò)濾的基本的算法是前綴樹(shù)算法,前綴樹(shù)也就是字典樹(shù),通過(guò)前綴樹(shù)匹配可以加快敏感詞匹配的速度。

前綴樹(shù)又稱(chēng)為T(mén)rie、字典樹(shù)、查找樹(shù)。主要特點(diǎn)是:查找效率高,但內(nèi)存消耗大;主要應(yīng)用于字符串檢索、詞頻統(tǒng)計(jì)、字符串排序等。

到底什么是前綴樹(shù)?前綴樹(shù)的功能是如何實(shí)現(xiàn)的?

舉一個(gè)具體的例子:若有一個(gè)字符串"xwabfabcff",敏感詞為"abc"、"bf"、"be",檢測(cè)字符串,若有敏感詞,則將敏感詞替換為"*",實(shí)現(xiàn)一個(gè)算法。

前綴樹(shù)的特點(diǎn):

        1. 跟結(jié)點(diǎn)為空結(jié)點(diǎn),沒(méi)有任何字符。

        2. 除了根節(jié)點(diǎn)以外,每個(gè)結(jié)點(diǎn)只有一個(gè)字符。

        3. 每個(gè)結(jié)點(diǎn)包含的子節(jié)點(diǎn)不相同。 例如,root的子節(jié)點(diǎn)本來(lái)有兩個(gè)b,但我們只保留一個(gè)

        4. 在每個(gè)敏感詞的末尾結(jié)點(diǎn)做一個(gè)標(biāo)記,表示從根節(jié)點(diǎn)到此節(jié)點(diǎn)組合成的字符串是一個(gè)敏感詞,中間未被標(biāo)記的結(jié)點(diǎn)和根節(jié)點(diǎn)中間的字符串不構(gòu)成一個(gè)敏感詞。

前綴樹(shù)的算法邏輯:

        1. 準(zhǔn)備:我們需要三個(gè)指針,①指針指向前綴樹(shù),默認(rèn)指向根節(jié)點(diǎn); ②、③指針指向要檢測(cè)的字符串(同向尺距法,②從頭到尾走一遍,標(biāo)記敏感詞的開(kāi)頭,③隨著②而動(dòng),標(biāo)記敏感詞的結(jié)尾),默認(rèn)指向字符串的第一個(gè)字符。我們還需要一個(gè)存放檢測(cè)結(jié)果的字符串(StringBuilder)。

        2. ①訪問(wèn)樹(shù)的第一層,發(fā)現(xiàn)沒(méi)有'x',則②、③向下走一步,并將'x'存入StringBuilder字符串里。'w' 同理。

        3. 此時(shí)②、③指向'a',①訪問(wèn)樹(shù)的第一層,發(fā)現(xiàn)有'a',但'a'未被標(biāo)記,所以不是敏感詞,則把'a'存入StringBuilder字符串。然后②不動(dòng),①、③繼續(xù)向下走,直至走到被標(biāo)記的結(jié)點(diǎn)或者不匹配時(shí),①歸位,②向下走一步,③回到此時(shí)②指向的地方。重復(fù)以上步驟。

        4. 若檢測(cè)到敏感詞,則在StringBuilder中存儲(chǔ)"***",并使②跳過(guò)此敏感詞,②、③共同指向原來(lái)③的下一個(gè)位置。
        

        5. ②、③走到字符串的末尾時(shí),檢測(cè)完成。最終結(jié)果為"xwa******ff"。

二、敏感詞過(guò)濾器

我們?cè)匍_(kāi)發(fā)項(xiàng)目時(shí),需要開(kāi)發(fā)出一個(gè)可復(fù)用的過(guò)濾敏感詞的工具,成為敏感詞過(guò)濾器,以便在項(xiàng)目中可以復(fù)用。

開(kāi)發(fā)敏感詞過(guò)濾器主要有以下三個(gè)步驟:

1. 定義前綴樹(shù)

2. 根據(jù)敏感詞,初始化前綴樹(shù)

3. 編寫(xiě)過(guò)濾敏感詞的方法

代碼實(shí)現(xiàn)如下:

import org.apache.commons.lang3.CharUtils;
import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;
 
import javax.annotation.PostConstruct;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
 
@Component
public class SensitiveFilter {
 
    // 記錄日志
    private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);
 
    // 替換符
    private static final String REPLACEMENT = "***";
 
    // 初始化根節(jié)點(diǎn)
    private TrieNode rootNode = new TrieNode();
 
    /**
     * 2. 根據(jù)敏感詞,初始化前綴樹(shù)
     */
    @PostConstruct// 當(dāng)容器在服務(wù)器啟動(dòng)時(shí)實(shí)例化此Bean,調(diào)用Bean的構(gòu)造方法后,該方法就會(huì)被自動(dòng)調(diào)用
    public void init() {
        try (
                // 加載敏感詞文件 sensitive-words.txt是自建的存放敏感詞的文件
                InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
                // 字節(jié)流 -->  字符流 --> 字符緩沖流
                BufferedReader reader = new BufferedReader(new InputStreamReader(is));
        ) {
            String keyword;
            while((keyword = reader.readLine()) != null){
                // 添加到前綴樹(shù),addKeyword為自定義的方法,將一個(gè)敏感詞添加到前綴樹(shù)中去
                this.addKeyword(keyword);
            }
 
        } catch (IOException e) {
            logger.error("加載敏感詞文件失敗:" + e.getMessage());
        }
 
    }
 
    // 封裝方法:將一個(gè)敏感詞添加到前綴樹(shù)中去
    private void addKeyword(String keyword){
        TrieNode tempNode = rootNode;
        for (int i = 0; i < keyword.length(); i++) {
            char c = keyword.charAt(i);
            TrieNode subNode = tempNode.getSubNode(c);
 
            if(subNode == null){
                // 如果子節(jié)點(diǎn)中沒(méi)有該字符,則以此字符初始化子節(jié)點(diǎn),并裝配到樹(shù)中
                subNode = new TrieNode();
                tempNode.addSubNode(c,subNode);
            }
 
            // 指向字節(jié)點(diǎn),進(jìn)入下一層循環(huán)
            tempNode = subNode;
 
            // 設(shè)置結(jié)束標(biāo)識(shí)
            if(i == keyword.length() -1){
                tempNode.setKeywordEnd(true);
            }
        }
    }
 
    /**
     * 3. 檢索并過(guò)濾敏感詞
     * @param text 待過(guò)濾的文本
     * @return 過(guò)濾后的文本
     */
    public String filter(String text){
        if(StringUtils.isBlank(text)){
            return null;
        }
 
        // 指針①
        TrieNode tempNode = rootNode;
        // 指針②
        int begin = 0;
        // 指針③
        int position = 0;
        // 存放結(jié)果
        StringBuilder sb = new StringBuilder();
 
        while(position < text.length()){
            char c = text.charAt(position);
 
            // 跳過(guò)符號(hào)
            if(isSymbol(c)){
                // 若指針①處于根節(jié)點(diǎn),將此符號(hào)計(jì)入結(jié)果,讓指針②向下走一步
                if(tempNode == rootNode){
                    sb.append(c);
                    begin++;
                }
                // 無(wú)論符號(hào)在未檢測(cè)時(shí)出現(xiàn)還是正在檢測(cè)時(shí)出現(xiàn),指針③總是向下走一步
                // (未檢測(cè)時(shí)和指針②一起向下走一步,檢測(cè)時(shí)指針②不動(dòng),指針③向下走一步)
                position++;
                continue;
            }
 
            // 檢查下級(jí)節(jié)點(diǎn)
            tempNode = tempNode.getSubNode(c);
            if(tempNode == null){
                // 以begin開(kāi)頭的字符串不是敏感詞
                sb.append(text.charAt(begin));
                // 進(jìn)入下一個(gè)位置
                begin++;
                position = begin;
                // 指針①歸位,重新指向根節(jié)點(diǎn)
                tempNode = rootNode;
            }else if (tempNode.isKeywordEnd()){
                // 發(fā)現(xiàn)敏感詞,將begin~position字符串替換掉
                sb.append(REPLACEMENT);
                // 進(jìn)入下一個(gè)位置
                position++;
                begin = position;
                // 指針①歸位,重新指向跟接待你
                tempNode = rootNode;
            }else {
                // 檢查下一個(gè)字符
                position++;
            }
        }
        // 將最后一批字符計(jì)入結(jié)果:指針③比指針②先到中終點(diǎn),且兩者之間的字符串不是敏感詞
        sb.append(text.substring(begin));
 
        return sb.toString();
    }
 
    // 封裝方法:判斷是否為特殊符號(hào)
    private boolean isSymbol(Character c){
        // 0x2E80~0x9FFF 是東亞文字范圍,不予當(dāng)作特殊符號(hào)看待
        return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
    }
 
    /**
     * 1. 定義前綴樹(shù)
     */
    private class TrieNode {
 
        // 敏感詞(關(guān)鍵詞)結(jié)束標(biāo)識(shí)
        private boolean isKeywordEnd = false;
 
        // 子節(jié)點(diǎn)(key是下級(jí)字符,value是下級(jí)節(jié)點(diǎn))
        private Map<Character, TrieNode> subNodes = new HashMap<>();
 
        public boolean isKeywordEnd() {
            return isKeywordEnd;
        }
 
        public void setKeywordEnd(boolean keywordEnd) {
            isKeywordEnd = keywordEnd;
        }
 
        // 添加子節(jié)點(diǎn)
        public void addSubNode(Character c, TrieNode node) {
            subNodes.put(c, node);
        }
 
        // 獲取子節(jié)點(diǎn)
        public TrieNode getSubNode(Character c) {
            return subNodes.get(c);
        }
    }
 
}

總結(jié)

到此這篇關(guān)于SpringBoot使用前綴樹(shù)過(guò)濾敏感詞的文章就介紹到這了,更多相關(guān)SpringBoot用前綴樹(shù)過(guò)濾敏感詞內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 三分鐘帶你掌握J(rèn)ava開(kāi)發(fā)圖片驗(yàn)證碼功能方法

    三分鐘帶你掌握J(rèn)ava開(kāi)發(fā)圖片驗(yàn)證碼功能方法

    這篇文章主要來(lái)為大家詳細(xì)介紹Java實(shí)現(xiàn)開(kāi)發(fā)圖片驗(yàn)證碼的具體方法,文中的示例代碼講解詳細(xì),具有一定的借鑒價(jià)值,需要的可以參考一下
    2023-02-02
  • IDEA啟動(dòng)報(bào)錯(cuò)Internal?error.?Please?refer?to?https://jb.gg/ide/critical-startup-errors解決辦法

    IDEA啟動(dòng)報(bào)錯(cuò)Internal?error.?Please?refer?to?https://jb.gg/i

    這篇文章主要介紹了IDEA啟動(dòng)報(bào)錯(cuò)Internal?error.?Please?refer?to?https://jb.gg/ide/critical-startup-errors解決辦法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2023-04-04
  • 使用@Autowired 注入RedisTemplate報(bào)錯(cuò)的問(wèn)題及解決

    使用@Autowired 注入RedisTemplate報(bào)錯(cuò)的問(wèn)題及解決

    這篇文章主要介紹了使用@Autowired 注入RedisTemplate報(bào)錯(cuò)的問(wèn)題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-08-08
  • 解析java中This的用法分析

    解析java中This的用法分析

    本篇文章是對(duì)java中This的用法進(jìn)行了詳細(xì)的分析介紹,需要的朋友參考下
    2013-05-05
  • Java虛擬機(jī)底層原理詳細(xì)分析

    Java虛擬機(jī)底層原理詳細(xì)分析

    這篇文章主要介紹了Java虛擬機(jī)底層原理詳細(xì)分析,運(yùn)行時(shí)數(shù)據(jù)區(qū)就是俗稱(chēng)的虛擬機(jī)內(nèi)存,主要包括我們熟悉的堆、棧、本地方法棧、方法區(qū)(元空間)、程序計(jì)數(shù)器,虛擬機(jī)調(diào)優(yōu)主要針對(duì)的是運(yùn)行時(shí)數(shù)據(jù)區(qū),也就是虛擬機(jī)內(nèi)存,需要的朋友可以參考下
    2024-01-01
  • Idea中SpringBoot多模塊項(xiàng)目的建立實(shí)現(xiàn)

    Idea中SpringBoot多模塊項(xiàng)目的建立實(shí)現(xiàn)

    這篇文章主要介紹了Idea中SpringBoot多模塊項(xiàng)目的建立實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-06-06
  • Java安全-ClassLoader

    Java安全-ClassLoader

    這篇文章主要介紹了Java安全ClassLoader,Java類(lèi)初始化的時(shí)候會(huì)調(diào)用java.lang.ClassLoader加載字節(jié)碼,ClassLoader就是用來(lái)動(dòng)態(tài)加載class文件到內(nèi)存當(dāng)中用的,下面詳細(xì)內(nèi)容,需要的小伙伴可以參考一下
    2022-01-01
  • Java 變量類(lèi)型及其實(shí)例

    Java 變量類(lèi)型及其實(shí)例

    這篇文章主要講解Java中變量的類(lèi)型以及實(shí)例,希望能給大家做一個(gè)參考
    2017-04-04
  • SpringBoot啟動(dòng)security后如何關(guān)閉彈出的/login頁(yè)面

    SpringBoot啟動(dòng)security后如何關(guān)閉彈出的/login頁(yè)面

    這篇文章主要介紹了SpringBoot啟動(dòng)security后如何關(guān)閉彈出的login頁(yè)面問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-12-12
  • Java的List集合框架之ArrayList詳解

    Java的List集合框架之ArrayList詳解

    這篇文章主要介紹了Java的List集合框架之ArrayList詳解,ArrayList默認(rèn)容量為10(構(gòu)造方法未指定初始容量為0),擴(kuò)容是利用位運(yùn)算(右移一位)和直接相加進(jìn)行1.5倍擴(kuò)容,需要的朋友可以參考下
    2023-11-11

最新評(píng)論