Java利用DFA算法實(shí)現(xiàn)敏感詞管理
我們?cè)谕瓿梢恍┪恼掳l(fā)布的功能是,可以使用第三方工具如阿里云的內(nèi)容安全來進(jìn)行文章的審核,但是這個(gè)第三方接口并不能過濾一些敏感詞
因此這時(shí)候我們需要自己維護(hù)一套敏感詞。
1.敏感詞-過濾
技術(shù)選型
方案 | 說明 |
---|---|
數(shù)據(jù)庫(kù)模糊查詢 | 效率太低 |
String.indexOf("")查找 | 數(shù)據(jù)庫(kù)量大的話也是比較慢 |
全文檢索 | 分詞再匹配 |
DFA算法 | 確定有窮自動(dòng)機(jī)(一種數(shù)據(jù)結(jié)構(gòu)) |
2.DFA實(shí)現(xiàn)原理
DFA全稱為:Deterministic Finite Automaton,即確定有窮自動(dòng)機(jī)。
存儲(chǔ):一次性的把所有的敏感詞存儲(chǔ)到了多個(gè)map中,就是下圖表示這種結(jié)構(gòu)
檢索的過程
3.實(shí)現(xiàn)步驟
3.1初始化敏感詞庫(kù)
private static int checkWord(String text, int beginIndex) { if (dictionaryMap == null) { throw new RuntimeException("字典不能為空"); } boolean isEnd = false; int wordLength = 0; Map<String, Object> curMap = dictionaryMap; int len = text.length(); // 從文本的第beginIndex開始匹配 for (int i = beginIndex; i < len; i++) { String key = String.valueOf(text.charAt(i)); // 獲取當(dāng)前key的下一個(gè)節(jié)點(diǎn) curMap = (Map<String, Object>) curMap.get(key); if (curMap == null) { break; } else { wordLength ++; if ("1".equals(curMap.get("isEnd"))) { isEnd = true; } } } if (!isEnd) { wordLength = 0; } return wordLength; }
3.3獲取匹配的關(guān)鍵詞和命中的次數(shù)
public static Map<String, Integer> matchWords(String text) { Map<String, Integer> wordMap = new HashMap<>(); int len = text.length(); for (int i = 0; i < len; i++) { int wordLength = checkWord(text, i); if (wordLength > 0) { String word = text.substring(i, i + wordLength); // 添加關(guān)鍵詞匹配次數(shù) if (wordMap.containsKey(word)) { wordMap.put(word, wordMap.get(word) + 1); } else { wordMap.put(word, 1); } i += wordLength - 1; } } return wordMap; }
3.4測(cè)試
public static void main(String[] args) { List<String> list = new ArrayList<>(); list.add("星期天"); list.add("放假"); list.add("加班"); initMap(list); String content="我是一個(gè)好人,但是我星期天又要加班"; Map<String, Integer> map = matchWords(content); System.out.println(map); }
到此這篇關(guān)于Java利用DFA算法實(shí)現(xiàn)敏感詞管理的文章就介紹到這了,更多相關(guān)Java敏感詞管理內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
@valid 無法觸發(fā)BindingResult的解決
這篇文章主要介紹了@valid 無法觸發(fā)BindingResult的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-12-12Java實(shí)現(xiàn)上傳和下載功能(支持多個(gè)文件同時(shí)上傳)
這篇文章主要介紹了Java實(shí)現(xiàn)上傳和下載功能,支持多個(gè)文件同時(shí)上傳,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-12-12Java?Swing實(shí)現(xiàn)記事本頁(yè)面
這篇文章主要為大家詳細(xì)介紹了Java?Swing實(shí)現(xiàn)記事本頁(yè)面,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-02-02java拋出異常后,后續(xù)代碼是否繼續(xù)執(zhí)行詳解
這篇文章主要給大家介紹了關(guān)于java拋出異常后,后續(xù)代碼是否繼續(xù)執(zhí)行詳?shù)南嚓P(guān)資料,在Java編程中,異常是當(dāng)程序執(zhí)行時(shí)遇到問題時(shí)拋出的一種特殊情況,需要的朋友可以參考下2023-07-07java Nio使用NioSocket客戶端與服務(wù)端交互實(shí)現(xiàn)方式
這篇文章主要介紹了java Nio使用 NioSocket 客戶端與服務(wù)端交互實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-06-06