Python3 文章標(biāo)題關(guān)鍵字提取的例子
思路:
1.讀取所有文章標(biāo)題;
2.用“結(jié)巴分詞”的工具包進(jìn)行文章標(biāo)題的詞語分割;
3.用“sklearn”的工具包計(jì)算Tf-idf(詞頻-逆文檔率);
4.得到滿足關(guān)鍵詞權(quán)重閾值的詞
結(jié)巴分詞詳見:結(jié)巴分詞Github
sklearn詳見:文本特征提取——4.2.3.4 Tf-idf項(xiàng)加權(quán)
import os import jieba import sys from sklearn.feature_extraction.text import TfidfVectorizer sys.path.append("../") jieba.load_userdict('userdictTest.txt') STOP_WORDS = set(( "基于", "面向", "研究", "系統(tǒng)", "設(shè)計(jì)", "綜述", "應(yīng)用", "進(jìn)展", "技術(shù)", "框架", "txt" )) def getFileList(path): filelist = [] files = os.listdir(path) for f in files: if f[0] == '.': pass else: filelist.append(f) return filelist, path def fenci(filename, path, segPath): # 保存分詞結(jié)果的文件夾 if not os.path.exists(segPath): os.mkdir(segPath) seg_list = jieba.cut(filename) result = [] for seg in seg_list: seg = ''.join(seg.split()) if len(seg.strip()) >= 2 and seg.lower() not in STOP_WORDS: result.append(seg) # 將分詞后的結(jié)果用空格隔開,保存至本地 f = open(segPath + "/" + filename + "-seg.txt", "w+") f.write(' '.join(result)) f.close() def Tfidf(filelist, sFilePath, path, tfidfw): corpus = [] for ff in filelist: fname = path + ff f = open(fname + "-seg.txt", 'r+') content = f.read() f.close() corpus.append(content) vectorizer = TfidfVectorizer() # 該類實(shí)現(xiàn)詞向量化和Tf-idf權(quán)重計(jì)算 tfidf = vectorizer.fit_transform(corpus) word = vectorizer.get_feature_names() weight = tfidf.toarray() if not os.path.exists(sFilePath): os.mkdir(sFilePath) for i in range(len(weight)): print('----------writing all the tf-idf in the ', i, 'file into ', sFilePath + '/', i, ".txt----------") f = open(sFilePath + "/" + str(i) + ".txt", 'w+') result = {} for j in range(len(word)): if weight[i][j] >= tfidfw: result[word[j]] = weight[i][j] resultsort = sorted(result.items(), key=lambda item: item[1], reverse=True) for z in range(len(resultsort)): f.write(resultsort[z][0] + " " + str(resultsort[z][1]) + '\r\n') print(resultsort[z][0] + " " + str(resultsort[z][1])) f.close()
TfidfVectorizer( ) 類 實(shí)現(xiàn)了詞向量化和Tf-idf權(quán)重的計(jì)算
詞向量化:vectorizer.fit_transform是將corpus中保存的切分后的單詞轉(zhuǎn)為詞頻矩陣,其過程為先將所有標(biāo)題切分的單詞形成feature特征和列索引,并在dictionary中保存了{(lán)‘特征':索引,……},如{‘農(nóng)業(yè)':0,‘大數(shù)據(jù)':1,……},在csc_matric中為每個(gè)標(biāo)題保存了 (標(biāo)題下標(biāo),特征索引) 詞頻tf……,然后對(duì)dictionary中的單詞進(jìn)行排序重新編號(hào),并對(duì)應(yīng)更改csc_matric中的特征索引,以便形成一個(gè)特征向量詞頻矩陣,接著計(jì)算每個(gè)feature的idf權(quán)重,其計(jì)算公式為 其中是所有文檔數(shù)量,是包含該單詞的文檔數(shù)。最后計(jì)算tf*idf并進(jìn)行正則化,得到關(guān)鍵詞權(quán)重。
以下面六個(gè)文章標(biāo)題為例進(jìn)行關(guān)鍵詞提取
Using jieba on 農(nóng)業(yè)大數(shù)據(jù)研究與應(yīng)用進(jìn)展綜述.txt
Using jieba on 基于Hadoop的分布式并行增量爬蟲技術(shù)研究.txt
Using jieba on 基于RPA的財(cái)務(wù)共享服務(wù)中心賬表核對(duì)流程優(yōu)化.txt
Using jieba on 基于大數(shù)據(jù)的特征趨勢(shì)統(tǒng)計(jì)系統(tǒng)設(shè)計(jì).txt
Using jieba on 網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)系統(tǒng)設(shè)計(jì).txt
Using jieba on 面向數(shù)據(jù)中心的多源異構(gòu)數(shù)據(jù)統(tǒng)一訪問框架.txt
----------writing all the tf-idf in the 0 file into ./keywords/ 0 .txt----------
農(nóng)業(yè) 0.773262366783
大數(shù)據(jù) 0.634086202434
----------writing all the tf-idf in the 1 file into ./keywords/ 1 .txt----------
hadoop 0.5
分布式 0.5
并行增量 0.5
爬蟲 0.5
----------writing all the tf-idf in the 2 file into ./keywords/ 2 .txt----------
rpa 0.408248290464
優(yōu)化 0.408248290464
服務(wù)中心 0.408248290464
流程 0.408248290464
財(cái)務(wù)共享 0.408248290464
賬表核對(duì) 0.408248290464
----------writing all the tf-idf in the 3 file into ./keywords/ 3 .txt----------
特征 0.521823488025
統(tǒng)計(jì) 0.521823488025
趨勢(shì) 0.521823488025
大數(shù)據(jù) 0.427902724969
----------writing all the tf-idf in the 4 file into ./keywords/ 4 .txt----------
大數(shù)據(jù)平臺(tái) 0.4472135955
異常 0.4472135955
監(jiān)測(cè) 0.4472135955
網(wǎng)絡(luò) 0.4472135955
風(fēng)險(xiǎn) 0.4472135955
----------writing all the tf-idf in the 5 file into ./keywords/ 5 .txt----------
多源異構(gòu)數(shù)據(jù) 0.57735026919
數(shù)據(jù)中心 0.57735026919
統(tǒng)一訪問 0.57735026919
以上這篇Python3 文章標(biāo)題關(guān)鍵字提取的例子就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
解決Alexnet訓(xùn)練模型在每個(gè)epoch中準(zhǔn)確率和loss都會(huì)一升一降問題
這篇文章主要介紹了解決Alexnet訓(xùn)練模型在每個(gè)epoch中準(zhǔn)確率和loss都會(huì)一升一降問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-06-06Python的selenium模塊使用find_element_by_id無效解決方案
這篇文章主要介紹了Python的selenium模塊使用find_element_by_id無效解決方案,find_element_by_id無效可能是因?yàn)榘姹締栴},而4.5.0版本不支持頁面對(duì)象的定位find_element_by_id方法,以前版本支持這些進(jìn)行元素定位,需要的朋友可以參考下2023-12-12Python使用StringIO和BytesIO讀寫內(nèi)存數(shù)據(jù)
這篇文章介紹了Python使用StringIO和BytesIO讀寫內(nèi)存數(shù)據(jù)的方法,文中通過示例代碼介紹的非常詳細(xì)。對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-05-05Python實(shí)現(xiàn)簡(jiǎn)單的代理服務(wù)器
這篇文章主要介紹了Python實(shí)現(xiàn)簡(jiǎn)單的代理服務(wù)器,可實(shí)現(xiàn)代理服務(wù)器基本的包轉(zhuǎn)發(fā)功能,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-07-07Python多進(jìn)程方式抓取基金網(wǎng)站內(nèi)容的方法分析
這篇文章主要介紹了Python多進(jìn)程方式抓取基金網(wǎng)站內(nèi)容的方法,結(jié)合實(shí)例形式分析了Python多進(jìn)程抓取網(wǎng)站內(nèi)容相關(guān)實(shí)現(xiàn)技巧與操作注意事項(xiàng),需要的朋友可以參考下2019-06-06使用 Visual Studio Code(VSCode)搭建簡(jiǎn)單的Python+Djan
這篇文章主要介紹了使用 Visual Studio Code(VSCode)搭建簡(jiǎn)單的Python+Django開發(fā)環(huán)境的方法步驟,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2018-12-12Python實(shí)現(xiàn)統(tǒng)計(jì)給定列表中指定數(shù)字出現(xiàn)次數(shù)的方法
這篇文章主要介紹了Python實(shí)現(xiàn)統(tǒng)計(jì)給定列表中指定數(shù)字出現(xiàn)次數(shù)的方法,涉及Python針對(duì)列表的簡(jiǎn)單遍歷、計(jì)算相關(guān)操作技巧,需要的朋友可以參考下2018-04-04