Java利用DFA算法實現(xiàn)敏感詞管理
我們在完成一些文章發(fā)布的功能是,可以使用第三方工具如阿里云的內(nèi)容安全來進(jìn)行文章的審核,但是這個第三方接口并不能過濾一些敏感詞
因此這時候我們需要自己維護(hù)一套敏感詞。
1.敏感詞-過濾
技術(shù)選型
方案 | 說明 |
---|---|
數(shù)據(jù)庫模糊查詢 | 效率太低 |
String.indexOf("")查找 | 數(shù)據(jù)庫量大的話也是比較慢 |
全文檢索 | 分詞再匹配 |
DFA算法 | 確定有窮自動機(一種數(shù)據(jù)結(jié)構(gòu)) |
2.DFA實現(xiàn)原理
DFA全稱為:Deterministic Finite Automaton,即確定有窮自動機。
存儲:一次性的把所有的敏感詞存儲到了多個map中,就是下圖表示這種結(jié)構(gòu)
檢索的過程
3.實現(xiàn)步驟
3.1初始化敏感詞庫
private static int checkWord(String text, int beginIndex) { if (dictionaryMap == null) { throw new RuntimeException("字典不能為空"); } boolean isEnd = false; int wordLength = 0; Map<String, Object> curMap = dictionaryMap; int len = text.length(); // 從文本的第beginIndex開始匹配 for (int i = beginIndex; i < len; i++) { String key = String.valueOf(text.charAt(i)); // 獲取當(dāng)前key的下一個節(jié)點 curMap = (Map<String, Object>) curMap.get(key); if (curMap == null) { break; } else { wordLength ++; if ("1".equals(curMap.get("isEnd"))) { isEnd = true; } } } if (!isEnd) { wordLength = 0; } return wordLength; }
3.3獲取匹配的關(guān)鍵詞和命中的次數(shù)
public static Map<String, Integer> matchWords(String text) { Map<String, Integer> wordMap = new HashMap<>(); int len = text.length(); for (int i = 0; i < len; i++) { int wordLength = checkWord(text, i); if (wordLength > 0) { String word = text.substring(i, i + wordLength); // 添加關(guān)鍵詞匹配次數(shù) if (wordMap.containsKey(word)) { wordMap.put(word, wordMap.get(word) + 1); } else { wordMap.put(word, 1); } i += wordLength - 1; } } return wordMap; }
3.4測試
public static void main(String[] args) { List<String> list = new ArrayList<>(); list.add("星期天"); list.add("放假"); list.add("加班"); initMap(list); String content="我是一個好人,但是我星期天又要加班"; Map<String, Integer> map = matchWords(content); System.out.println(map); }
到此這篇關(guān)于Java利用DFA算法實現(xiàn)敏感詞管理的文章就介紹到這了,更多相關(guān)Java敏感詞管理內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
@valid 無法觸發(fā)BindingResult的解決
這篇文章主要介紹了@valid 無法觸發(fā)BindingResult的解決方案,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-12-12Java實現(xiàn)上傳和下載功能(支持多個文件同時上傳)
這篇文章主要介紹了Java實現(xiàn)上傳和下載功能,支持多個文件同時上傳,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2020-12-12java拋出異常后,后續(xù)代碼是否繼續(xù)執(zhí)行詳解
這篇文章主要給大家介紹了關(guān)于java拋出異常后,后續(xù)代碼是否繼續(xù)執(zhí)行詳?shù)南嚓P(guān)資料,在Java編程中,異常是當(dāng)程序執(zhí)行時遇到問題時拋出的一種特殊情況,需要的朋友可以參考下2023-07-07java Nio使用NioSocket客戶端與服務(wù)端交互實現(xiàn)方式
這篇文章主要介紹了java Nio使用 NioSocket 客戶端與服務(wù)端交互實現(xiàn)方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-06-06