Python3 文章標(biāo)題關(guān)鍵字提取的例子

更新時(shí)間：2019年08月26日 10:00:04 作者：Muzi_Water

今天小編就為大家分享一篇Python3 文章標(biāo)題關(guān)鍵字提取的例子，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧

思路：

1.讀取所有文章標(biāo)題；

2.用“結(jié)巴分詞”的工具包進(jìn)行文章標(biāo)題的詞語分割；

3.用“sklearn”的工具包計(jì)算Tf-idf（詞頻-逆文檔率）;

4.得到滿足關(guān)鍵詞權(quán)重閾值的詞

結(jié)巴分詞詳見：結(jié)巴分詞Github

sklearn詳見：文本特征提取——4.2.3.4 Tf-idf項(xiàng)加權(quán)

import os
import jieba
import sys
from sklearn.feature_extraction.text import TfidfVectorizer
 
 
sys.path.append("../")
jieba.load_userdict('userdictTest.txt')
STOP_WORDS = set((
  "基于", "面向", "研究", "系統(tǒng)", "設(shè)計(jì)", "綜述", "應(yīng)用", "進(jìn)展", "技術(shù)", "框架", "txt"
 ))
 
def getFileList(path):
 filelist = []
 files = os.listdir(path)
 for f in files:
  if f[0] == '.':
   pass
  else:
   filelist.append(f)
 return filelist, path
 
def fenci(filename, path, segPath):
 
 # 保存分詞結(jié)果的文件夾
 if not os.path.exists(segPath):
  os.mkdir(segPath)
 seg_list = jieba.cut(filename)
 result = []
 for seg in seg_list:
  seg = ''.join(seg.split())
  if len(seg.strip()) >= 2 and seg.lower() not in STOP_WORDS:
   result.append(seg)
 
 # 將分詞后的結(jié)果用空格隔開，保存至本地
 f = open(segPath + "/" + filename + "-seg.txt", "w+")
 f.write(' '.join(result))
 f.close()
 
def Tfidf(filelist, sFilePath, path, tfidfw):
 corpus = []
 for ff in filelist:
  fname = path + ff
  f = open(fname + "-seg.txt", 'r+')
  content = f.read()
  f.close()
  corpus.append(content)
 
 vectorizer = TfidfVectorizer() # 該類實(shí)現(xiàn)詞向量化和Tf-idf權(quán)重計(jì)算
 tfidf = vectorizer.fit_transform(corpus)
 word = vectorizer.get_feature_names()
 weight = tfidf.toarray()
 
 if not os.path.exists(sFilePath):
  os.mkdir(sFilePath)
 
 for i in range(len(weight)):
  print('----------writing all the tf-idf in the ', i, 'file into ', sFilePath + '/', i, ".txt----------")
  f = open(sFilePath + "/" + str(i) + ".txt", 'w+')
  result = {}
  for j in range(len(word)):
   if weight[i][j] >= tfidfw:
    result[word[j]] = weight[i][j]
  resultsort = sorted(result.items(), key=lambda item: item[1], reverse=True)
  for z in range(len(resultsort)):
   f.write(resultsort[z][0] + " " + str(resultsort[z][1]) + '\r\n')
   print(resultsort[z][0] + " " + str(resultsort[z][1]))
  f.close()

TfidfVectorizer( ) 類實(shí)現(xiàn)了詞向量化和Tf-idf權(quán)重的計(jì)算

詞向量化：vectorizer.fit_transform是將corpus中保存的切分后的單詞轉(zhuǎn)為詞頻矩陣，其過程為先將所有標(biāo)題切分的單詞形成feature特征和列索引，并在dictionary中保存了{(lán)‘特征'：索引，……}，如{‘農(nóng)業(yè)'：0，‘大數(shù)據(jù)'：1，……}，在csc_matric中為每個(gè)標(biāo)題保存了 (標(biāo)題下標(biāo)，特征索引) 詞頻tf……，然后對(duì)dictionary中的單詞進(jìn)行排序重新編號(hào)，并對(duì)應(yīng)更改csc_matric中的特征索引，以便形成一個(gè)特征向量詞頻矩陣，接著計(jì)算每個(gè)feature的idf權(quán)重，其計(jì)算公式為其中是所有文檔數(shù)量，是包含該單詞的文檔數(shù)。最后計(jì)算tf*idf并進(jìn)行正則化，得到關(guān)鍵詞權(quán)重。