快捷導(dǎo)航

Python使用pynlpir進(jìn)行中文分詞并保留段落信息

更新時(shí)間：2024年03月01日 09:54:13 作者：PythonFun

nlpir是由張華平博士開(kāi)發(fā)的中文自然處理工具,可以對(duì)中文文本進(jìn)行分詞、聚類(lèi)分析等,本文主要介紹了使用pynlpir進(jìn)行中文分詞并保留段落信息的具體方法,希望對(duì)大家有所幫助

一、引言

nlpir是由張華平博士開(kāi)發(fā)的中文自然處理工具，可以對(duì)中文文本進(jìn)行分詞、聚類(lèi)分析等，它既有在線的中文數(shù)據(jù)大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)，也有相關(guān)的python包pynlpir，其github的地址是：

Pynlpir在Github上的地址

這個(gè)包的使用是免費(fèi)的，但是授權(quán)文件需要每個(gè)月更新一次。

二、利用pynlpir進(jìn)行分詞

1.安裝模塊

首先要安裝這個(gè)模塊，安裝方法是在cmd命令行下輸入：

pip install pynlpir

2. 更新授權(quán)

安裝后還可能需要更新一下授權(quán)

pynlpir update

3. 開(kāi)始批量分詞

1）基礎(chǔ)分詞

import pynlpir
pynlpir.open()
s = '歡迎科研人員、技術(shù)工程師、企事業(yè)單位與個(gè)人參與NLPIR平臺(tái)的建設(shè)工作。'
segs = pynlpir.segment(s)
for seg in segs:
    print(seg)

顯示結(jié)果：

基本使用方法

2）批量分詞

主要是采用os模塊批量讀取當(dāng)前目錄下的txt文件，然后分別按段落讀取、分詞、標(biāo)注。詞與標(biāo)注信息之前中【_】來(lái)連接，兩個(gè)詞之間用【|】，段落之間加入換行符號(hào)，然后寫(xiě)入到【seg_】開(kāi)頭的txt文件里。這里，我們采用的是英文的標(biāo)注信息，每個(gè)文件標(biāo)注完成后會(huì)生成新的文件，最終代碼如下：

import pynlpir
import os
 
# 初始化分詞庫(kù)
pynlpir.open ()
 
# 進(jìn)行分詞操作
txts = [file for file in os.listdir(".") if file.endswith(".txt")]
 
for txt in txts:
    with open(txt,"r",encoding="utf-8") as f:
        lines = [line.strip() for line in f.readlines()]
        for line in lines:
            segments = pynlpir.segment (line, pos_tagging=True,pos_english=True)
            with open("segged_"+os.path.basename(txt),"a+",encoding="utf-8") as fi:
                for segment in segments:
                    try:
                        fi.write(str(segment[0])+"_"+str(segment[1])+"|")
                    except Exception as exc:
                        print(exc,segment)
                fi.write("\n")
 
# 關(guān)閉分詞庫(kù)
pynlpir.close ()

4. 分詞效果展示

經(jīng)過(guò)分詞和標(biāo)注后的文件截圖展示如下，可以看到很好地保留了段落的信息，這為后面進(jìn)行詞性統(tǒng)計(jì)也做好了準(zhǔn)備。后期，可以根據(jù)nlpir的標(biāo)注集，對(duì)于所有文本中的詞性進(jìn)行統(tǒng)計(jì)分析。