亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python jieba結(jié)巴分詞原理及用法解析

 更新時間:2020年11月05日 11:05:55   作者:南風(fēng)丶輕語  
這篇文章主要介紹了Python jieba結(jié)巴分詞原理及用法解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下

1、簡要說明

結(jié)巴分詞支持三種分詞模式,支持繁體字,支持自定義詞典

2、三種分詞模式

全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義

精簡模式:把句子最精確的分開,不會添加多余單詞,看起來就像是把句子分割一下

搜索引擎模式:在精簡模式下,對長詞再度切分

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '我去北京天安門廣場跳舞'
  a = jieba.lcut(str1, cut_all=True) # 全模式
  print('全模式:{}'.format(a))
  b = jieba.lcut(str1, cut_all=False) # 精簡模式
  print('精簡模式:{}'.format(b))
  c = jieba.lcut_for_search(str1) # 搜索引擎模式
  print('搜索引擎模式:{}'.format(c))

運(yùn)行

3、某個詞語不能被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '桃花俠大戰(zhàn)菊花怪'
  b = jieba.lcut(str1, cut_all=False) # 精簡模式
  print('精簡模式:{}'.format(b))
  # 如果不把桃花俠分開
  jieba.add_word('桃花俠')
  d = jieba.lcut(str1) # 默認(rèn)是精簡模式
  print(d)

運(yùn)行

4、 某個單詞必須被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  # HMM參數(shù),默認(rèn)為True
  '''HMM 模型,即隱馬爾可夫模型(Hidden Markov Model, HMM),是一種基于概率的統(tǒng)計(jì)分析模型,
  用來描述一個系統(tǒng)隱性狀態(tài)的轉(zhuǎn)移和隱性狀態(tài)的表現(xiàn)概率。
  在 jieba 中,對于未登錄到詞庫的詞,使用了基于漢字成詞能力的 HMM 模型和 Viterbi 算法,
  其大致原理是:
  采用四個隱含狀態(tài),分別表示為單字成詞,詞組的開頭,詞組的中間,詞組的結(jié)尾。
  通過標(biāo)注好的分詞訓(xùn)練集,可以得到 HMM 的各個參數(shù),然后使用 Viterbi 算法來解釋測試集,得到分詞結(jié)果。
  '''
  str1 = '桃花俠大戰(zhàn)菊花怪'
  b = jieba.lcut(str1, cut_all=False, HMM=False) # 精簡模式,且不使用HMM模型
  print('精簡模式:{}'.format(b))
  # 分開大戰(zhàn)為大和戰(zhàn)
  jieba.suggest_freq(('大', '戰(zhàn)'), True)
  e = jieba.lcut(str1, HMM=False) # 不使用HMM模型
  print('分開:{}'.format(e))

運(yùn)行

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

最新評論