亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

關(guān)于Python中jieba庫的使用

 更新時(shí)間:2023年04月11日 11:28:26   作者:程序喵正在路上  
這篇文章主要介紹了關(guān)于Python中jieba庫的使用,jieba (“結(jié)巴”) 是 Python 中一個(gè)重要的第三方中文分詞函數(shù)庫,除了分詞,jieba 還提供增加自定義中文單詞的功能,需要的朋友可以參考下

jieba庫概述

jieba 庫演示

對(duì)于一段英文文本, 例如 “China is a great country”,如果希望提取其中的單詞,只需要使用字符串處理的 split() 方法即可,例如:

print("China is a great country".split())

程序執(zhí)行結(jié)果如下:

[‘China’, ‘is’, ‘a’, ‘great’, ‘country’]

然而,對(duì)于一段中文文本,例如,“中國是一個(gè)偉大的國家”,獲得其中的單詞 (不是字符) 十分困難,因?yàn)橛⑽奈谋究梢酝ㄟ^空格或者標(biāo)點(diǎn)符號(hào)分隔,而中文單詞之間缺少分隔符,這是中文及類似語言獨(dú)有的“分詞”問題。

上例中, 分詞能夠?qū)?“中國是一個(gè)偉大的國家” 分為"中國”、“是”、 “一個(gè)”、“偉大”、“的”、 "國家"等一系列詞語。

jieba (“結(jié)巴”) 是 Python 中一個(gè)重要的第三方中文分詞函數(shù)庫,例如:

import jiebapr
int(jieba.lcut("中國是一個(gè)偉大的國家"))

程序執(zhí)行結(jié)果如下:

[‘中國’, ‘是’, ‘一個(gè)’, ‘偉大’, ‘的’, ‘國家’]

jieba 庫的分詞原理是利用一個(gè)中文詞庫,將待分詞的內(nèi)容與分詞詞庫進(jìn)行比對(duì),通過圖結(jié)構(gòu)和動(dòng)態(tài)規(guī)劃方法找到最大概率的詞組。

除了分詞,jieba 還提供增加自定義中文單詞的功能。

jieba 庫支持 3 種分詞模式:

  • 精確模式,將句子最精確地切開,適合文本分析;
  • 全模式,把句子中所有可以成詞的詞語都掃描出來,速度非???,但是不能消除歧義
  • 搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長詞再次切分,提高召回率,適合用于搜索引擎分詞。

在 PyCharm 中添加 jieba 庫

jieba 庫是第三方庫,不是 Python 安裝包自帶的,因此,需要進(jìn)行安裝,因?yàn)槲覀兝玫氖?PyCharm 進(jìn)行開發(fā),所以只要簡單地把 jieba 庫添加進(jìn)來就行,下面是具體步驟。

(1) 在菜單欄中點(diǎn)擊【File】——【Settings】

在這里插入圖片描述

(2) 在接下來的界面中找到【Project: pythonProject】——【Project Interpreter】,點(diǎn)擊界面中的加號(hào)

在這里插入圖片描述

(3) 輸入 “jieba"搜索,找到 jieba,然后點(diǎn)擊 ”Install Package“,等待一會(huì)兒即可

在這里插入圖片描述

(4) 安裝完可以返回之前的界面查看

在這里插入圖片描述

使用jieba 庫

jieba 庫支持 3 種分詞模式:

  • 精確模式,將句子最精確地切開,適合文本分析;
  • 全模式,把句子中所有可以成詞的詞語都掃描出來,速度非???,但是不能消除歧義;
  • 搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長詞再次切分,提高召回率,適合用于搜索引擎分詞。

jieba 庫主要提供分詞功能,可以輔助自定義分詞詞典。

jieba 庫中包含的主要函數(shù)如下表所示:

函數(shù)描述
jieba.cut(s)精確模式,返回一個(gè)可迭代的數(shù)據(jù)類型
jieba.cut(s, cut_all=True)全模式,輸出文本 s 中所有可能的單詞
jieba.cut_for_ search(s)搜索引擎模式,適合搜索引擎建立索引的分詞結(jié)果
jieba.lcut(s)精確模式,返回一個(gè)列表類型,建議使用
jieba.lcut(s, cut_all=True)全模式,返回一個(gè)列表類型,建議使用
jieba.lcut_for_search(s)搜索引擎模式,返回一個(gè)列表類型,建議使用
jieba.add_word(w)向分詞詞典中增加新詞 w

代碼如下:

import jieba

print(jieba.lcut("中華人民共和國是一個(gè)偉大的國家"))

print(jieba.lcut("中華人民共和國是一個(gè)偉大的國家", cut_all=True))

print(jieba.lcut_for_search("中華人民共和國是一個(gè)偉大的國家"))

程序執(zhí)行結(jié)果如下:

[‘中華人民共和國’, ‘是’, ‘一個(gè)’, ‘偉大’, ‘的’, ‘國家’]
[‘中華’, ‘中華人民’, ‘中華人民共和國’, ‘華人’, ‘人民’, ‘人民共和國’, ‘共和’, ‘共和國’, ‘國是’, ‘一個(gè)’, ‘偉大’, ‘的’, ‘國家’]
[‘中華’, ‘華人’, ‘人民’, ‘共和’, ‘共和國’, ‘中華人民共和國’, ‘是’, ‘一個(gè)’, ‘偉大’, ‘的’, ‘國家’]

jieba. lcut() 函數(shù)返回精確模式,輸出的分詞能夠完整且不多余地組成原始文本;

jieba. lcut(,True) 函數(shù)返回全模式,輸出原始文本中可能產(chǎn)生的所有問題,冗余性最大;

jieba.lcut_ for_search() 函數(shù)返回搜索引擎模式,該模式首先執(zhí)行精確模式,然后再對(duì)其中的長詞進(jìn)一步切分獲得結(jié)果。

由于列表類型通用且靈活,建議讀者使用上述 3 個(gè)能夠返回列表類型的分詞函數(shù)。

默認(rèn)情況下,jieba.cut()6 個(gè)分詞函數(shù)能夠較高概率識(shí)別自定義的新詞,比如名字或縮寫。對(duì)于無法識(shí)別的分詞,也可以通過 jieba.add_ word() 函 數(shù)向分詞庫添加,例如:

import jieba
print(jieba.lcut("程序喵正在路上"))
jieba.add_word("程序喵")
print(jieba.lcut("程序喵正在路上"))

程序執(zhí)行結(jié)果如下:

[‘程序’, ‘喵’, ‘正在’, ‘路上’]
[‘程序喵’, ‘正在’, ‘路上’]

第三方庫

Python 語言的第三方庫指不在 Python 安裝包中的函數(shù)庫,也是非標(biāo)準(zhǔn)函數(shù)、庫。這類函數(shù)庫一般由全球各領(lǐng)域?qū)I(yè)人士結(jié)合專業(yè)特點(diǎn)和興趣開發(fā)。Python 語言構(gòu)建了一個(gè)開放和自由的生態(tài)環(huán)境,對(duì)第三方庫的開發(fā)沒有強(qiáng)制要求,因此,Python 語言的第三方庫發(fā)展十分迅速。截至 20169 月,Python 官方網(wǎng)站注冊(cè)的第三方庫已經(jīng)達(dá)到 9 萬多個(gè)。如果說強(qiáng)大的標(biāo)準(zhǔn)庫奠定了 Python 語言發(fā)展的基石,豐富的第三方庫則是 Python 不斷發(fā)展的保證。隨著 Python 語言的發(fā)展,一些穩(wěn)定的第三方庫不斷被加入標(biāo)準(zhǔn)庫。

到此這篇關(guān)于關(guān)于Python中jieba庫的使用的文章就介紹到這了,更多相關(guān)Python jieba庫內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

最新評(píng)論