Python第三方庫(kù)jieba庫(kù)與中文分詞全面詳解
一、什么是jieba庫(kù)
jieba是優(yōu)秀的中文分詞第三方庫(kù),由于中文文本之間每個(gè)漢字都是連續(xù)書(shū)寫(xiě)的,我們需要通過(guò)特定的手段來(lái)獲得其中的每個(gè)詞組,這種手段叫做分詞,我們可以通過(guò)jieba庫(kù)來(lái)完成這個(gè)過(guò)程。
二、jieba分詞原理
jieba庫(kù)的分詞原理是利用了一個(gè)中文詞庫(kù),將待分詞的內(nèi)容與分詞詞庫(kù)對(duì)比,通過(guò)圖結(jié)構(gòu)和動(dòng)態(tài)規(guī)則劃分方法找到最大概率的詞組。除了分詞,jieba還提供增加自定義中文單詞的功能。
三、jieba庫(kù)支持的三種分詞模式
1.精確模式
將句子最精確地分開(kāi),適合文本分析;
2.全模式
把句子中所有可以成詞的詞語(yǔ)都掃描出來(lái),速度非常快,但是不能解決歧義;
3.搜索引擎模式
在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞
注:對(duì)中文分詞來(lái)說(shuō),jieba庫(kù)只需要一行代碼即可。英文文本不存在分詞問(wèn)題
四、jieba庫(kù)常用函數(shù)
函數(shù) | 描述 |
---|---|
jieba.lcut(s) | 精確模式,返回一個(gè)列表值 |
jieba.lcut(s,cut_all=True) | 全模式,返回一個(gè)列表值 |
jieba.lcut_for_search(s) | 搜索引擎模式,返回一個(gè)列表值 |
jieba.add_word(w) | 向分詞詞典中增加新詞w |
五、jieba實(shí)操
首先你需要安裝jieba庫(kù)
pip install jieba
練習(xí)一(jieba.lcut)精確模式
jieba.lcut(s)是最常用的中文分詞函數(shù),用于精確模式,將字符串分割成等量的中文詞組。
import jieba ls = jieba.lcut("我愿意穿過(guò)璀璨繁星") print(ls)
練習(xí)二(jieba.lcut(s,cut_all=True) )全模式
jieba.lcut(s,cut_all=True)用于全模式,將字符串的所有分詞可能列出來(lái),冗余最大。
import jieba ls = jieba.lcut("人面不知何處去,桃花依舊笑春風(fēng)", cut_all=True) print(ls)
練習(xí)三(jieba.lcut_for_search)搜索引擎模式
jieba.lcut_for_search該模式首先執(zhí)行精確模式,然后在對(duì)其中長(zhǎng)詞進(jìn)一步分獲得最終結(jié)果
import jieba ls1 = jieba.lcut("仰天大笑出門(mén)去我輩豈是蓬蒿人") ls = jieba.lcut_for_search("仰天大笑出門(mén)去我輩豈是蓬蒿人") print(ls1) print(ls)
練習(xí)四(jieba.add_word(w))增加新詞
import jieba ls = jieba.lcut_for_search("仰天大笑出門(mén)去我輩豈是蓬蒿人") print(ls) jieba.add_word("蓬蒿人") ls1 = jieba.lcut("仰天大笑出門(mén)去我輩豈是蓬蒿人") print(ls1)
小結(jié):精確模式因?yàn)椴划a(chǎn)生冗余,最為常用。
總結(jié)
到此這篇關(guān)于Python第三方庫(kù)jieba庫(kù)與中文分詞的文章就介紹到這了,更多相關(guān)Python jieba庫(kù)與中文分詞內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
解決PySide+Python子線程更新UI線程的問(wèn)題
今天小編就為大家分享一篇解決PySide+Python子線程更新UI線程的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-01-01pyqt5移動(dòng)鼠標(biāo)顯示坐標(biāo)的方法
今天小編就為大家分享一篇pyqt5移動(dòng)鼠標(biāo)顯示坐標(biāo)的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-06-06python實(shí)現(xiàn)尋找最長(zhǎng)回文子序列的方法
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)尋找最長(zhǎng)回文子序列的方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-06-06twilio python自動(dòng)撥打電話,播放自定義mp3音頻的方法
今天小編就為大家分享一篇twilio python自動(dòng)撥打電話,播放自定義mp3音頻的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-08-08Python實(shí)現(xiàn)XGBoost算法的應(yīng)用實(shí)戰(zhàn)
XGBoost(Extreme Gradient Boosting)是一種高效且廣泛使用的集成學(xué)習(xí)算法,它屬于梯度提升樹(shù)(GBDT)模型的一種改進(jìn),本文將結(jié)合實(shí)際案例,詳細(xì)介紹如何在Python中使用XGBoost算法進(jìn)行模型訓(xùn)練和預(yù)測(cè),需要的朋友可以參考下2024-08-08Python實(shí)現(xiàn)手機(jī)號(hào)自動(dòng)判斷男女性別(實(shí)例解析)
這篇文章主要介紹了Python實(shí)現(xiàn)手機(jī)號(hào)自動(dòng)判斷男女性別,本文性別判斷主要依靠airtest中的自動(dòng)化測(cè)試實(shí)現(xiàn),通過(guò)實(shí)例代碼給大家講解的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-12-12Python Numpy中ndarray的常見(jiàn)操作
這篇文章主要介紹了Python Numpy中ndarray的常見(jiàn)操作,NumPy是Python的一種開(kāi)源的數(shù)值計(jì)算擴(kuò)展,更多詳細(xì)內(nèi)容需要的朋友可以參考一下2022-07-07