GO語言利用K近鄰算法實現(xiàn)小說鑒黃
更新時間:2015年03月29日 10:46:06 投稿:hebedich
本文給大家分享的是一段GO語言利用K近鄰算法實現(xiàn)小說鑒黃的方法,本方法的鑒別的關(guān)鍵是關(guān)鍵是向量點的選擇和閾值的判定,推薦給大家,有需要的小伙伴可以參考下。
Usuage:
go run kNN.go --file="data.txt"
關(guān)鍵是向量點的選擇和閾值的判定
樣本數(shù)據(jù)來自國家新聞出版總署發(fā)布通知公布的《40部淫穢色情網(wǎng)絡(luò)小說名單》
package main import ( "bufio" "flag" "fmt" "io" "log" "math" "os" "path" "path/filepath" ) var debug bool = false var data_dir string = "./moyan" //文件存放目錄 var limen float64 = 0.1159203888322267 //閾值 const ( MIN_HANZI rune = 0x3400 MAX_HANZI rune = 0x9fbb ) var labels []rune = []rune{ 0x817f, 0x80f8, 0x4e73, 0x81c0, 0x5c41, 0x80a1, 0x88f8, 0x6deb, } func errHandle(err error) { if err != nil { log.Fatal(err) } } func load(name string) (m map[rune]int, err error) { f, err := os.Open(name) if err != nil { return nil, err } defer f.Close() buf := bufio.NewReader(f) m = make(map[rune]int) var r rune for { r, _, err = buf.ReadRune() if err != nil { if err == io.EOF { break } return nil, err } if r >= MIN_HANZI && r <= MAX_HANZI { m[r] += 1 } } return m, nil } func classify(m map[rune]int) (idv []float64, dis float64) { len_m := len(m) for i, v := range labels { if debug { fmt.Println(i, m[v], string(v), float64(m[v])/float64(len_m)) } idv = append(idv, float64(m[v])/float64(len_m)) } for _, v := range idv { dis += math.Pow(v, 2) } dis = math.Sqrt(dis) return } func check(fp string, dis float64) { switch { case dis >= limen: fmt.Println(fp, dis, "涉黃") case dis == 1.0: fmt.Println(fp, dis, "你在作弊嗎") case dis == 0: fmt.Println(fp, dis, "檢查一下文件字符編碼是不是utf8格式吧") default: fmt.Println(fp, dis, "正常") } } func walkFunc(fp string, info os.FileInfo, err error) error { if path.Ext(fp) == ".txt" { m, err := load(fp) errHandle(err) _, dis := classify(m) check(fp, dis) } return err } var file string func init() { _, err := os.Stat(data_dir) if err != nil { err = os.Mkdir(data_dir, os.ModePerm) errHandle(err) } flag.StringVar(&file, "file", "", "file read in,if you don't give the file read in,"+ "it will create a data dictionary,just pust your files in it") } func main() { flag.Parse() if file == "" { filepath.Walk(data_dir, walkFunc) return } m, err := load(file) errHandle(err) _, dis := classify(m) check(file, dis) }
以上所述就是本文的全部內(nèi)容了,希望大家能夠喜歡。
相關(guān)文章
Go中的關(guān)鍵字any interface是否會成為歷史
這篇文章主要為大家介紹了Go中的關(guān)鍵字any interface是否會成為歷史的講解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-07-07wind10 idea中 go 開發(fā)環(huán)境搭建教程圖解
這篇文章主要介紹了wind10 idea中 go 開發(fā)環(huán)境搭建過程,本文通過圖文并茂的形式給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-06-06