Python?jieba分詞添加自定義詞和去除不需要長(zhǎng)尾詞的操作方法
Python jieba分詞如何添加自定義詞和去除不需要長(zhǎng)尾詞
通過如下代碼,讀取一個(gè)txt的高頻詞匯:
# 找到高頻詞匯 tmp_content = self.getContent(tmp_path) keyword_list = tmp_content.split('\n') word_count = dict() for keyword in keyword_list: for word,flag in jp.cut(keyword): if word in word_count: word_count[word] = word_count[word] +1 else: word_count[word] =1 for word, count in word_count.items(): print('%s\t%s' % (word,count))
很多情況下 jieba它不知道一些詞匯,比如說(shuō)獲得的詞匯如下
建立
和 可視化
是2個(gè)獨(dú)立的單詞
一、添加自定義詞
通過添加自定義詞
import jieba import jieba.posseg as jp jieba.load_userdict(r'jieba_dict.txt')
就可以看到,統(tǒng)計(jì)出來(lái)的詞是這個(gè)自定義詞
二、去除不需要長(zhǎng)尾詞
有時(shí) 統(tǒng)計(jì)出來(lái)的某些詞匯jieba
認(rèn)為是一個(gè)詞匯 但是此時(shí) 我想讓他變?yōu)槎鄠€(gè)詞匯 ,可以通過如下代碼實(shí)現(xiàn):
import jieba import jieba.posseg as jp jieba.del_word('創(chuàng)建活動(dòng)')
此時(shí) jieba 就會(huì)不認(rèn)定 創(chuàng)建活動(dòng)
是一個(gè)詞,它會(huì)將它們分開統(tǒng)計(jì)
總結(jié)
- 本文主要介紹jieba的基礎(chǔ)用法。
到此這篇關(guān)于Python jieba分詞如何添加自定義詞和去除不需要長(zhǎng)尾詞的文章就介紹到這了,更多相關(guān)Python jieba分詞內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python使用wxpy實(shí)現(xiàn)微信消息防撤回腳本
這篇文章主要為大家詳細(xì)介紹了python使用wxpy實(shí)現(xiàn)微信消息防撤回腳本,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-04-04使用tensorflow實(shí)現(xiàn)VGG網(wǎng)絡(luò),訓(xùn)練mnist數(shù)據(jù)集方式
這篇文章主要介紹了使用tensorflow實(shí)現(xiàn)VGG網(wǎng)絡(luò),訓(xùn)練mnist數(shù)據(jù)集方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧2020-05-05多個(gè)版本的python共存時(shí)使用pip的正確做法
這篇文章主要介紹了多版本python共存時(shí)使用pip的正確做法,幫助有多個(gè)python版本需求的人可以正確的導(dǎo)包,感興趣的朋友可以了解下2020-10-10python SMTP實(shí)現(xiàn)發(fā)送帶附件電子郵件
這篇文章主要為大家詳細(xì)介紹了python SMTP實(shí)現(xiàn)發(fā)送帶附件電子郵件,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-05-05python利用遞歸方法實(shí)現(xiàn)求集合的冪集
這篇文章主要給大家介紹了關(guān)于python利用遞歸方法實(shí)現(xiàn)求集合的冪集的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09python進(jìn)階教程之循環(huán)相關(guān)函數(shù)range、enumerate、zip
這篇文章主要介紹了python進(jìn)階教程之循環(huán)相關(guān)函數(shù)range、enumerate、zip,在使用循環(huán)程序經(jīng)常要配合這些函數(shù)來(lái)完成循環(huán),需要的朋友可以參考下2014-08-08