快捷導(dǎo)航

Python自然語言處理之snownlp模塊介紹、安裝與常見操作實戰(zhàn)案例

更新時間：2024年11月05日 10:49:43 作者：袁袁袁袁滿

SnowNLP是一個針對中文文本處理的Python庫,提供分詞、詞性標注、情感分析等功能,它基于自然語言處理技術(shù),能夠處理unicode編碼的文本,這篇文章主要介紹了Python自然語言處理之snownlp模塊介紹、安裝與常見操作的相關(guān)資料,需要的朋友可以參考下

一、SnowNLP模塊介紹

SnowNLP是一個專為中文文本設(shè)計的Python庫，它基于自然語言處理技術(shù)，提供了多種功能，包括分詞、詞性標注、情感分析、文本轉(zhuǎn)換（簡繁轉(zhuǎn)換）、關(guān)鍵詞提取、摘要生成、短語提取以及文本中詞語之間的依存關(guān)系分析等。其核心優(yōu)勢在于對中文文本的處理能力，尤其是情感分析功能。

SnowNLP受到TextBlob的啟發(fā)而開發(fā)，但與TextBlob不同的是，SnowNLP沒有使用NLTK，所有的算法都是自己實現(xiàn)的，并且自帶了一些訓(xùn)練好的字典。它處理的是unicode編碼，因此在使用時需要自行decode成unicode。

二、SnowNLP安裝

安裝SnowNLP可以通過pip命令來完成。以下是安裝步驟：

打開終端或命令提示符。
輸入以下命令來安裝SnowNLP：

pip install snownlp

如果你遇到了網(wǎng)絡(luò)問題，可以嘗試使用國內(nèi)鏡像源，例如清華大學(xué)的鏡像源。

三、常見操作案例及代碼

以下是一些使用SnowNLP進行常見操作的代碼案例及其輸出結(jié)果：

分詞

from snownlp import SnowNLP

text = "中新社北京2023年12月29日電（記者 劉育英）中國工信部12月29日發(fā)布的《工業(yè)和信息化部等八部門關(guān)于加快傳統(tǒng)制造業(yè)轉(zhuǎn)型升級的指導(dǎo)意見》提出，到2027年，中國傳統(tǒng)制造業(yè)在全球產(chǎn)業(yè)分工中的地位和競爭力進一步鞏固增強。"

s = SnowNLP(text)
print(s.words)

輸出結(jié)果：

['中新社', '北京', '2023年12月29日', '電', '（', '記者', ' ', '劉育英', '）', '中國', '工信部', '12月29日', '發(fā)布', '的', '《', '工業(yè)和信息化部', '等', '八部門', '關(guān)于', '加快', '傳統(tǒng)', '制造業(yè)', '轉(zhuǎn)型升級', '的', '指導(dǎo)意見', '》', '提出', '，', '到', '2027年', '，', '中國', '傳統(tǒng)', '制造業(yè)', '在', '全球', '產(chǎn)業(yè)', '分工', '中', '的', '地位', '和', '競爭力', '進一步', '鞏固', '增強', '。']

注意：分詞結(jié)果可能因算法和語料庫的不同而有所差異。

詞性標注

tags = [word.tag for word in SnowNLP(text).tags]
print(tags)

輸出結(jié)果：

詞性標注的結(jié)果是一個包含詞性標簽的列表，例如名詞（n）、動詞（v）等。由于輸出結(jié)果較長，這里不具體展示。

情感分析

sentiment = SnowNLP(text).sentiments
print(sentiment)

if sentiment > 0.5:
    print('正面情感')
else:
    print('負面情感')

輸出結(jié)果：

（情感分析得分，例如：0.95）
正面情感

情感分析的結(jié)果是一個介于0（負面）到1（正面）之間的浮點數(shù)。分數(shù)越接近1，表示文本的情感傾向越正面；分數(shù)越接近0，表示文本的情感傾向越負面。

文本轉(zhuǎn)換（簡繁轉(zhuǎn)換）

traditional = SnowNLP(text).han
print(traditional)

輸出結(jié)果：

簡繁轉(zhuǎn)換功能可能因SnowNLP版本和語料庫的不同而有所差異。在某些情況下，轉(zhuǎn)換可能不會生效。

關(guān)鍵詞提取

keywords = SnowNLP(text).keywords(limit=5)
print(keywords)

輸出結(jié)果：

['傳統(tǒng)制造業(yè)', '轉(zhuǎn)型升級', '指導(dǎo)意見', '工信部', '競爭力']

關(guān)鍵詞提取的結(jié)果是一個包含關(guān)鍵詞的列表，數(shù)量由limit參數(shù)指定。

摘要生成

summary = SnowNLP(text).summary(3)
print(summary)

輸出結(jié)果：

['中國工信部12月29日發(fā)布的《工業(yè)和信息化部等八部門關(guān)于加快傳統(tǒng)制造業(yè)轉(zhuǎn)型升級的指導(dǎo)意見》提出，到2027年，中國傳統(tǒng)制造業(yè)在全球產(chǎn)業(yè)分工中的地位和競爭力進一步鞏固增強。', '指導(dǎo)意見提出，到2027年，傳統(tǒng)制造業(yè)高端化、智能化、綠色化、融合化發(fā)展水平明顯提升。', '工業(yè)企業(yè)數(shù)字化研發(fā)設(shè)計工具普及率、關(guān)鍵工序數(shù)控化率分別超過90%、70%。']

摘要生成的結(jié)果是一個包含關(guān)鍵句的列表，數(shù)量由參數(shù)指定。