GO語(yǔ)言利用K近鄰算法實(shí)現(xiàn)小說(shuō)鑒黃
Usuage:
go run kNN.go --file="data.txt"
關(guān)鍵是向量點(diǎn)的選擇和閾值的判定
樣本數(shù)據(jù)來(lái)自國(guó)家新聞出版總署發(fā)布通知公布的《40部淫穢色情網(wǎng)絡(luò)小說(shuō)名單》
package main import ( "bufio" "flag" "fmt" "io" "log" "math" "os" "path" "path/filepath" ) var debug bool = false var data_dir string = "./moyan" //文件存放目錄 var limen float64 = 0.1159203888322267 //閾值 const ( MIN_HANZI rune = 0x3400 MAX_HANZI rune = 0x9fbb ) var labels []rune = []rune{ 0x817f, 0x80f8, 0x4e73, 0x81c0, 0x5c41, 0x80a1, 0x88f8, 0x6deb, } func errHandle(err error) { if err != nil { log.Fatal(err) } } func load(name string) (m map[rune]int, err error) { f, err := os.Open(name) if err != nil { return nil, err } defer f.Close() buf := bufio.NewReader(f) m = make(map[rune]int) var r rune for { r, _, err = buf.ReadRune() if err != nil { if err == io.EOF { break } return nil, err } if r >= MIN_HANZI && r <= MAX_HANZI { m[r] += 1 } } return m, nil } func classify(m map[rune]int) (idv []float64, dis float64) { len_m := len(m) for i, v := range labels { if debug { fmt.Println(i, m[v], string(v), float64(m[v])/float64(len_m)) } idv = append(idv, float64(m[v])/float64(len_m)) } for _, v := range idv { dis += math.Pow(v, 2) } dis = math.Sqrt(dis) return } func check(fp string, dis float64) { switch { case dis >= limen: fmt.Println(fp, dis, "涉黃") case dis == 1.0: fmt.Println(fp, dis, "你在作弊嗎") case dis == 0: fmt.Println(fp, dis, "檢查一下文件字符編碼是不是utf8格式吧") default: fmt.Println(fp, dis, "正常") } } func walkFunc(fp string, info os.FileInfo, err error) error { if path.Ext(fp) == ".txt" { m, err := load(fp) errHandle(err) _, dis := classify(m) check(fp, dis) } return err } var file string func init() { _, err := os.Stat(data_dir) if err != nil { err = os.Mkdir(data_dir, os.ModePerm) errHandle(err) } flag.StringVar(&file, "file", "", "file read in,if you don't give the file read in,"+ "it will create a data dictionary,just pust your files in it") } func main() { flag.Parse() if file == "" { filepath.Walk(data_dir, walkFunc) return } m, err := load(file) errHandle(err) _, dis := classify(m) check(file, dis) }
以上所述就是本文的全部?jī)?nèi)容了,希望大家能夠喜歡。
- Golang排列組合算法問(wèn)題之全排列實(shí)現(xiàn)方法
- Golang算法問(wèn)題之整數(shù)拆分實(shí)現(xiàn)方法分析
- Golang算法問(wèn)題之?dāng)?shù)組按指定規(guī)則排序的方法分析
- Golang算法之田忌賽馬問(wèn)題實(shí)現(xiàn)方法分析
- Golang最大遞減數(shù)算法問(wèn)題分析
- Golang正整數(shù)指定規(guī)則排序算法問(wèn)題分析
- Go語(yǔ)言實(shí)現(xiàn)的樹(shù)形結(jié)構(gòu)數(shù)據(jù)比較算法實(shí)例
- Go語(yǔ)言算法之尋找數(shù)組第二大元素的方法
- go語(yǔ)言睡眠排序算法實(shí)例分析
- golang實(shí)現(xiàn)分頁(yè)算法實(shí)例代碼
相關(guān)文章
Go中的關(guān)鍵字any interface是否會(huì)成為歷史
這篇文章主要為大家介紹了Go中的關(guān)鍵字any interface是否會(huì)成為歷史的講解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-07-07Go開(kāi)發(fā)環(huán)境搭建詳細(xì)介紹
由于目前網(wǎng)上Go的開(kāi)發(fā)環(huán)境搭建文章很多,有些比較老舊,都是基于 GOPATH的,給新入門(mén)的同學(xué)造成困擾。以下為2023 版 Go 開(kāi)發(fā)環(huán)境搭建,可參照此教程搭建Go開(kāi)發(fā)環(huán)境,有需要的朋友可以參考閱讀2023-04-04wind10 idea中 go 開(kāi)發(fā)環(huán)境搭建教程圖解
這篇文章主要介紹了wind10 idea中 go 開(kāi)發(fā)環(huán)境搭建過(guò)程,本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-06-06Go語(yǔ)言官方依賴(lài)注入工具Wire的使用教程
依賴(lài)注入是一種實(shí)現(xiàn)控制反轉(zhuǎn)且用于解決依賴(lài)性問(wèn)題的設(shè)計(jì)模式。Golang?中常用的依賴(lài)注入工具主要有?Inject?、Dig?等。但是今天主要介紹的是?Go?團(tuán)隊(duì)開(kāi)發(fā)的?Wire,一個(gè)編譯期實(shí)現(xiàn)依賴(lài)注入的工具,感興趣的可以了解一下2022-09-09Golang實(shí)現(xiàn)AES對(duì)稱(chēng)加密的過(guò)程詳解
AES是一個(gè)對(duì)稱(chēng)密碼,旨在取代DES成為廣泛使用的標(biāo)準(zhǔn),本文給大家分享Golang實(shí)現(xiàn)AES對(duì)稱(chēng)加密的過(guò)程,本文附有Golang實(shí)現(xiàn)AES加密ECB模式的源碼,感興趣的朋友跟隨小編一起學(xué)習(xí)下吧2021-05-05