Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞袋模型
概述
從今天開始我們將開啟一段自然語言處理 (NLP) 的旅程. 自然語言處理可以讓來處理, 理解, 以及運(yùn)用人類的語言, 實(shí)現(xiàn)機(jī)器語言和人類語言之間的溝通橋梁.
詞袋模型
詞袋模型 (Bag of Words Model) 能幫助我們把一個句子轉(zhuǎn)換為向量表示. 詞袋模型把文本看作是無序的詞匯集合, 把每一單詞都進(jìn)行統(tǒng)計(jì).
向量化
詞袋模型首先會進(jìn)行分詞, 在分詞之后. 通過通過統(tǒng)計(jì)在每個詞在文本中出現(xiàn)的次數(shù). 我們就可以得到該文本基于詞語的特征, 如果將各個文本樣本的這些詞與對應(yīng)的詞頻放在一起, 就是我們常說的向量化.
例子:
import jieba from gensim import corpora # 定義標(biāo)點(diǎn)符號 punctuation = [",", "。", ":", ";", "?", "!"] # 定義語料 content = [ "今天天氣真不錯!", "明天要下雨?", "后天要打雷。" ] # 分詞 seg = [jieba.lcut(con) for con in content] print("語料:", seg) # 去除標(biāo)點(diǎn)符號 tokenized = seg.copy() for s in tokenized: for p in punctuation: if p in s: s.remove(p) print("去除標(biāo)點(diǎn):", tokenized) # tokenized是去標(biāo)點(diǎn)之后的 dictionary = corpora.Dictionary(seg) print("詞袋模型:", dictionary) # 保存詞典 dictionary.save('deerwester.dict') # 查看字典和下標(biāo)id的映射 print("編號:", dictionary.token2id)
輸出結(jié)果:
Building prefix dict from the default dictionary ... Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache Loading model cost 1.140 seconds. Prefix dict has been built successfully. 語料: [['今天天氣', '真不錯', '!'], ['明天', '要', '下雨', '?'], ['后天', '要', '打雷', '。']] 去除標(biāo)點(diǎn): [['今天天氣', '真不錯'], ['明天', '要', '下雨'], ['后天', '要', '打雷']] 詞袋模型: Dictionary(7 unique tokens: ['今天天氣', '真不錯', '下雨', '明天', '要']...) 編號: {'今天天氣': 0, '真不錯': 1, '下雨': 2, '明天': 3, '要': 4, '后天': 5, '打雷': 6}
以上就是Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞袋模型的詳細(xì)內(nèi)容,更多關(guān)于Python機(jī)器學(xué)習(xí)NLP自然語言處理的資料請關(guān)注腳本之家其它相關(guān)文章!
- Python結(jié)合spaCy?進(jìn)行簡易自然語言處理
- Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作電影影評分析
- Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作家暴歸類
- Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞向量模型
- Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作關(guān)鍵詞
- Python機(jī)器學(xué)習(xí)NLP自然語言處理Word2vec電影影評建模
- Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作新聞分類
- Python自然語言處理使用spaCy庫進(jìn)行文本預(yù)處理
相關(guān)文章
Python實(shí)現(xiàn)刪除文件但保留指定文件
這篇文章主要介紹了Python實(shí)現(xiàn)刪除文件但保留指定文件,本文直接給出實(shí)現(xiàn)代碼,并同時(shí)給出代碼解釋,需要的朋友可以參考下2015-06-06Python面向?qū)ο蠖鄳B(tài)實(shí)現(xiàn)原理及代碼實(shí)例
這篇文章主要介紹了Python面向?qū)ο蠖鄳B(tài)實(shí)現(xiàn)原理及代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-09-09Python Numpy實(shí)現(xiàn)計(jì)算矩陣的均值和標(biāo)準(zhǔn)差詳解
NumPy(Numerical Python)是Python的一種開源的數(shù)值計(jì)算擴(kuò)展。這種工具可用來存儲和處理大型矩陣,比Python自身的嵌套列表結(jié)構(gòu)要高效的多。本文主要介紹用NumPy實(shí)現(xiàn)計(jì)算矩陣的均值和標(biāo)準(zhǔn)差,感興趣的小伙伴可以了解一下2021-11-11python中的elasticsearch_dsl查詢語句轉(zhuǎn)換成es查詢語句詳解
這篇文章主要介紹了python中的elasticsearch_dsl查詢語句轉(zhuǎn)換成es查詢語句詳解,ElasticSearch在實(shí)際生產(chǎn)里通常和LogStash,Kibana,F(xiàn)ileBeat一起構(gòu)成Elastic?Stack來使用,它是這些組件里面最核心的一個,需要的朋友可以參考下2023-07-07Python通過matplotlib繪制動畫簡單實(shí)例
這篇文章主要介紹了Python通過matplotlib繪制動畫簡單實(shí)例,具有一定借鑒價(jià)值,需要的朋友可以參考下。2017-12-12