亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

淺析常用分詞算法的比較與設(shè)想

 更新時間:2013年10月26日 17:00:35   投稿:shangke  
這篇文章介紹了常用分詞算法的比較與設(shè)想,有需要的朋友可以參考一下

與基于理解的分詞算法和基于統(tǒng)計的分詞算法相比,基于文本匹配的算法更加通用?;谖谋酒ヅ涞乃惴ㄓ址Q之為“機(jī)械分詞算法”,他是它是按照一定的策略將待分析的漢字串與一個“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個字符串,則匹配成功,可識別出一個詞。按照掃描方向的不同,文本匹配分詞方法可以分為正向匹配和逆向匹配兩種;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。

  常用的幾種機(jī)械分詞方法如下:

  1) 正向最大匹配法(由左到右的方向)

  2) 逆向最大匹配法(由右到左的方向)

  3) 最少切分(使每一句中切出的詞數(shù)最?。?。

  其他的還有將上述各種方法相互組合形成的分詞算法,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。本文中著重討論正向最大匹配法和逆向最大匹配法。

  由于機(jī)械分詞算法的準(zhǔn)確性取決于算法的準(zhǔn)確性與詞庫完備性兩個方面。在本文中設(shè)想詞庫充分大,包含需要的詞語。

  一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實際的需要。實際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。

相關(guān)文章

最新評論