欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java利用DFA算法實(shí)現(xiàn)敏感詞管理

 更新時(shí)間:2024年11月08日 11:52:36   作者:xn_xy19  
我們?cè)谕瓿梢恍┪恼掳l(fā)布的功能是,可以使用第三方工具如阿里云的內(nèi)容安全來進(jìn)行文章的審核,但是這個(gè)第三方接口并不能過濾一些敏感詞,所以本文就來講講如何通過DFA算法就行敏感詞管理吧

我們?cè)谕瓿梢恍┪恼掳l(fā)布的功能是,可以使用第三方工具如阿里云的內(nèi)容安全來進(jìn)行文章的審核,但是這個(gè)第三方接口并不能過濾一些敏感詞

因此這時(shí)候我們需要自己維護(hù)一套敏感詞。

1.敏感詞-過濾

技術(shù)選型

方案說明
數(shù)據(jù)庫(kù)模糊查詢效率太低
String.indexOf("")查找數(shù)據(jù)庫(kù)量大的話也是比較慢
全文檢索分詞再匹配
DFA算法確定有窮自動(dòng)機(jī)(一種數(shù)據(jù)結(jié)構(gòu))

2.DFA實(shí)現(xiàn)原理

DFA全稱為:Deterministic Finite Automaton,即確定有窮自動(dòng)機(jī)。

存儲(chǔ):一次性的把所有的敏感詞存儲(chǔ)到了多個(gè)map中,就是下圖表示這種結(jié)構(gòu)

檢索的過程

3.實(shí)現(xiàn)步驟

3.1初始化敏感詞庫(kù)

private static int checkWord(String text, int beginIndex) {
        if (dictionaryMap == null) {
            throw new RuntimeException("字典不能為空");
        }
        boolean isEnd = false;
        int wordLength = 0;
        Map<String, Object> curMap = dictionaryMap;
        int len = text.length();
        // 從文本的第beginIndex開始匹配
        for (int i = beginIndex; i < len; i++) {
            String key = String.valueOf(text.charAt(i));
            // 獲取當(dāng)前key的下一個(gè)節(jié)點(diǎn)
            curMap = (Map<String, Object>) curMap.get(key);
            if (curMap == null) {
                break;
            } else {
                wordLength ++;
                if ("1".equals(curMap.get("isEnd"))) {
                    isEnd = true;
                }
            }
        }
        if (!isEnd) {
            wordLength = 0;
        }
        return wordLength;
    }

3.3獲取匹配的關(guān)鍵詞和命中的次數(shù)

 public static Map<String, Integer> matchWords(String text) {
        Map<String, Integer> wordMap = new HashMap<>();
        int len = text.length();
        for (int i = 0; i < len; i++) {
            int wordLength = checkWord(text, i);
            if (wordLength > 0) {
                String word = text.substring(i, i + wordLength);
                // 添加關(guān)鍵詞匹配次數(shù)
                if (wordMap.containsKey(word)) {
                    wordMap.put(word, wordMap.get(word) + 1);
                } else {
                    wordMap.put(word, 1);
                }
 
                i += wordLength - 1;
            }
        }
        return wordMap;
    }

3.4測(cè)試

public static void main(String[] args) {
        List<String> list = new ArrayList<>();
        list.add("星期天");
        list.add("放假");
        list.add("加班");
        initMap(list);
        String content="我是一個(gè)好人,但是我星期天又要加班";
        Map<String, Integer> map = matchWords(content);
        System.out.println(map);
    }

到此這篇關(guān)于Java利用DFA算法實(shí)現(xiàn)敏感詞管理的文章就介紹到這了,更多相關(guān)Java敏感詞管理內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Java使用dom4j解析XML

    Java使用dom4j解析XML

    dom4j是一個(gè)開源的、基于Java的XML解析庫(kù),而在Java中使用dom4j庫(kù)解析XML是一種常見的方法,下面就跟隨小編一起來學(xué)習(xí)一下Java如何使用dom4j解析XML吧
    2024-12-12
  • @valid 無法觸發(fā)BindingResult的解決

    @valid 無法觸發(fā)BindingResult的解決

    這篇文章主要介紹了@valid 無法觸發(fā)BindingResult的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-12-12
  • Java實(shí)現(xiàn)上傳和下載功能(支持多個(gè)文件同時(shí)上傳)

    Java實(shí)現(xiàn)上傳和下載功能(支持多個(gè)文件同時(shí)上傳)

    這篇文章主要介紹了Java實(shí)現(xiàn)上傳和下載功能,支持多個(gè)文件同時(shí)上傳,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2020-12-12
  • Java?Swing實(shí)現(xiàn)記事本頁(yè)面

    Java?Swing實(shí)現(xiàn)記事本頁(yè)面

    這篇文章主要為大家詳細(xì)介紹了Java?Swing實(shí)現(xiàn)記事本頁(yè)面,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-02-02
  • Spring中的八大模式簡(jiǎn)單介紹

    Spring中的八大模式簡(jiǎn)單介紹

    這篇文章主要介紹了Spring中的八大模式簡(jiǎn)單介紹,結(jié)合實(shí)例代碼給大家講解的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2023-06-06
  • java拋出異常后,后續(xù)代碼是否繼續(xù)執(zhí)行詳解

    java拋出異常后,后續(xù)代碼是否繼續(xù)執(zhí)行詳解

    這篇文章主要給大家介紹了關(guān)于java拋出異常后,后續(xù)代碼是否繼續(xù)執(zhí)行詳?shù)南嚓P(guān)資料,在Java編程中,異常是當(dāng)程序執(zhí)行時(shí)遇到問題時(shí)拋出的一種特殊情況,需要的朋友可以參考下
    2023-07-07
  • java Nio使用NioSocket客戶端與服務(wù)端交互實(shí)現(xiàn)方式

    java Nio使用NioSocket客戶端與服務(wù)端交互實(shí)現(xiàn)方式

    這篇文章主要介紹了java Nio使用 NioSocket 客戶端與服務(wù)端交互實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-06-06
  • MyBatis延遲加載的處理方案

    MyBatis延遲加載的處理方案

    MyBatis 支持 延遲加載(Lazy Loading),允許在需要數(shù)據(jù)時(shí)才從數(shù)據(jù)庫(kù)加載,而不是在查詢結(jié)果第一次返回時(shí)就立即加載所有數(shù)據(jù),延遲加載的核心思想是,將關(guān)聯(lián)對(duì)象或集合的加載推遲到真正需要時(shí)才進(jìn)行加載,本文給大家介紹了MyBatis延遲加載的處理方案
    2024-12-12
  • Mybatis打印SQL語(yǔ)句的幾種常用方式

    Mybatis打印SQL語(yǔ)句的幾種常用方式

    當(dāng)我們動(dòng)態(tài)sql拼接的塊很多的時(shí)候,我們要想從*mapper.xml中直接找出完整的sql就會(huì)非常的難,這個(gè)時(shí)候經(jīng)常會(huì)需要把組合之后的完整SQL語(yǔ)句打印出來,對(duì)調(diào)試非常有幫助的,所以本文小編給大家介紹了幾種Mybatis打印SQL語(yǔ)句的常用方式,需要的朋友可以參考下
    2023-11-11
  • Java關(guān)于IO流的全面介紹

    Java關(guān)于IO流的全面介紹

    下面小編就為大家?guī)硪黄狫ava關(guān)于IO流的全面介紹。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2016-08-08

最新評(píng)論