通過Python的jieba庫對(duì)文本進(jìn)行分詞
一、jieba庫是什么?
Python的jieba庫是一個(gè)中文分詞工具,它可以將一段中文文本分割成一個(gè)一個(gè)的詞語,方便后續(xù)的自然語言處理任務(wù),如文本分類、情感分析等。jieba庫使用了基于前綴詞典的分詞方法,能夠處理中文的各種復(fù)雜情況,如歧義詞、新詞等。它還提供了多種分詞模式,如精確模式、全模式、搜索引擎模式等,以適應(yīng)不同場(chǎng)景的需求。此外,jieba庫還支持用戶自定義詞典,使得分詞結(jié)果更加準(zhǔn)確。
二、安裝jieba庫
pip install jieba
查看jieba版本
pip show jieba
Name: jieba
Version: 0.42.1
Summary: Chinese Words Segmentation Utilities
Home-page: https://github.com/fxsjy/jieba
Author: Sun, Junyi
Author-email: ccnusjy@gmail.com
License: MIT
Requires:
Required-by:
四、使用方法
1.引入庫
import jieba
2.定義需要分詞的文本
text = "我愛發(fā)動(dòng)態(tài),我喜歡使用搜索引擎模式進(jìn)行分詞"
3.使用分詞模式進(jìn)行分詞
3.1精確模式(默認(rèn))
試圖將句子最精確地切開,適合文本分析。
seg_list = jieba.cut(text)
3.2全模式
把句子中所有的可能成詞的詞語都掃描出來,速度很快,但是不能解決歧義。
seg_list = jieba.cut(text, cut_all=True)
3.3搜索引擎模式
在精確模式的基礎(chǔ)上,對(duì)長詞再次切分,提高召回率,適合用于搜索引擎分詞。
seg_list = jieba.cut_for_search(text)
4.將分詞結(jié)果轉(zhuǎn)換為列表
word_list = list(seg_list)
5.打印分詞結(jié)果
print(word_list)
6.分詞效果對(duì)比
6.1精確模式(默認(rèn))
['我愛發(fā)', '動(dòng)態(tài)', ',', '我', '喜歡', '使用', '搜索引擎', '模式', '進(jìn)行', '分詞']
6.2全模式
['我', '愛', '發(fā)動(dòng)', '動(dòng)態(tài)', ',', '我', '喜歡', '使用', '搜索', '搜索引擎', '索引', '引擎', '模式', '進(jìn)行', '分詞']
6.3搜索引擎模式
['我愛發(fā)', '動(dòng)態(tài)', ',', '我', '喜歡', '使用', '搜索', '索引', '引擎', '搜索引擎', '模式', '進(jìn)行', '分詞']
到此這篇關(guān)于通過Python的jieba庫對(duì)文本進(jìn)行分詞的文章就介紹到這了,更多相關(guān)Python jieba庫文本分詞內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python中的單下劃線與雙下劃線以及絕對(duì)導(dǎo)入與相對(duì)導(dǎo)入
這篇文章主要介紹了python中的單下劃線與雙下劃線以及絕對(duì)導(dǎo)入與相對(duì)導(dǎo)入說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-11-11詳解Python計(jì)算機(jī)視覺 圖像扭曲(仿射扭曲)
這篇文章主要介紹了Python計(jì)算機(jī)視覺 圖像扭曲(仿射扭曲),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-03-03python?flask項(xiàng)目打包成docker鏡像發(fā)布的過程
這篇文章主要介紹了python?flask項(xiàng)目打包成docker鏡像發(fā)布,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2023-03-03通過實(shí)例學(xué)習(xí)Python Excel操作
這篇文章主要介紹了通過實(shí)例學(xué)習(xí)Python Excel操作,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-01-01python opencv 簡單閾值算法的實(shí)現(xiàn)
這篇文章主要介紹了python opencv 簡單閾值算法的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-08-08Python實(shí)現(xiàn)圖片轉(zhuǎn)字符畫的示例代碼
本篇文章主要介紹了Python實(shí)現(xiàn)圖片轉(zhuǎn)字符畫的示例代碼,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-08-08在tensorflow中設(shè)置保存checkpoint的最大數(shù)量實(shí)例
今天小編就為大家分享一篇在tensorflow中設(shè)置保存checkpoint的最大數(shù)量實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01