亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python sklearn CountVectorizer使用詳解

 更新時(shí)間:2023年03月23日 11:21:31   作者:math_gao  
這篇文章主要介紹了Python_sklearn_CountVectorizer使用詳解,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下

簡介

CountVectorizer官方文檔

將一個(gè)文檔集合向量化為為一個(gè)計(jì)數(shù)矩陣。

如果不提供一個(gè)先驗(yàn)字典,不使用分析器做某種特征選擇,那么特征的數(shù)量將等于通過分析數(shù)據(jù)發(fā)現(xiàn)的詞匯量。

數(shù)據(jù)預(yù)處理

兩種方法:1.可以不分詞直接投入模型;2.可以先將中文文本進(jìn)行分詞。

兩種方法產(chǎn)生的詞匯會(huì)非常不同。在后面會(huì)具體給出示范。

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始數(shù)據(jù)
text = ['很少在公眾場合手機(jī)外放',
        '大部分人都還是很認(rèn)真去學(xué)習(xí)的',
        '他們會(huì)用行動(dòng)來',
        '無論你現(xiàn)在有多頹廢,振作起來',
        '只需要一點(diǎn)點(diǎn)地改變',
        '你的外在和內(nèi)在都能煥然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分詞
text = [' '.join(jieba.lcut(tt)) for tt in text]
text

pic1

構(gòu)建模型

訓(xùn)練模型

#構(gòu)建模型
vectorizer = CountVectorizer()
#訓(xùn)練模型
X = vectorizer.fit_transform(text)

所有詞匯:model.get_feature_names()

#所有文檔匯集后生成的詞匯
feature_names = vectorizer.get_feature_names()
print(feature_names)

不分詞生成的詞匯

pic2

分詞后生成的詞匯

pic3

計(jì)數(shù)矩陣:X.toarray()

#每個(gè)文檔相對詞匯量出現(xiàn)次數(shù)形成的矩陣
matrix = X.toarray()
print(matrix)

pic4

#計(jì)數(shù)矩陣轉(zhuǎn)化為DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df

pic5

詞匯索引:model.vocabulary_

print(vectorizer.vocabulary_)

pic6

到此這篇關(guān)于Python_sklearn_CountVectorizer使用詳解的文章就介紹到這了,更多相關(guān)Python_sklearn_CountVectorizer使用內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 利用Python如何畫一顆心、小人發(fā)射愛心

    利用Python如何畫一顆心、小人發(fā)射愛心

    這篇文章主要給大家介紹了關(guān)于利用Python如何畫一顆心、小人發(fā)射愛心的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-02-02
  • python自動(dòng)生成證件號的方法示例

    python自動(dòng)生成證件號的方法示例

    這篇文章主要給大家介紹了關(guān)于python自動(dòng)生成證件號的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-01-01
  • 利用python實(shí)現(xiàn)全屏愛心雨向喜歡的人表白

    利用python實(shí)現(xiàn)全屏愛心雨向喜歡的人表白

    馬上520了,教大家用Python做一個(gè)下愛心雨的特效,這篇文章主要給大家介紹了關(guān)于利用python實(shí)現(xiàn)全屏愛心雨向喜歡的人表白的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2023-05-05
  • Python optparse模塊及簡單使用

    Python optparse模塊及簡單使用

    optparse,是一個(gè)更夠讓程序設(shè)計(jì)人員輕松設(shè)計(jì)出簡單明了、易于使用、符合標(biāo)準(zhǔn)的Unix命令例程式的Python模塊,生成使用和幫助信息,這篇文章主要介紹了Python optparse模塊簡單使用,需要的朋友可以參考下
    2022-12-12
  • pygame實(shí)現(xiàn)時(shí)鐘效果

    pygame實(shí)現(xiàn)時(shí)鐘效果

    這篇文章主要為大家詳細(xì)介紹了pygame實(shí)現(xiàn)時(shí)鐘效果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-06-06
  • OpenCV 圖像梯度的實(shí)現(xiàn)方法

    OpenCV 圖像梯度的實(shí)現(xiàn)方法

    梯度簡單來說就是求導(dǎo)。本文主要介紹了OpenCV 圖像梯度的實(shí)現(xiàn)方法,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-07-07
  • Pycharm使用Conda激活環(huán)境失敗的問題解決

    Pycharm使用Conda激活環(huán)境失敗的問題解決

    本文主要介紹了Pycharm使用Conda激活環(huán)境失敗的問題解決,文中主要介紹了兩種問題的解決,具有一定的參考價(jià)值,感興趣的可以了解一下
    2023-09-09
  • Python?Asyncio中Coroutines,Tasks,Future可等待對象的關(guān)系及作用

    Python?Asyncio中Coroutines,Tasks,Future可等待對象的關(guān)系及作用

    這篇文章主要介紹了Python?Asyncio中Coroutines,Tasks,Future可等待對象的關(guān)系及作用,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,需要的小伙伴可以參考一下
    2022-06-06
  • tensorflow 利用expand_dims和squeeze擴(kuò)展和壓縮tensor維度方式

    tensorflow 利用expand_dims和squeeze擴(kuò)展和壓縮tensor維度方式

    今天小編就為大家分享一篇tensorflow 利用expand_dims和squeeze擴(kuò)展和壓縮tensor維度方式,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • Python運(yùn)算符的應(yīng)用超全面詳細(xì)教程

    Python運(yùn)算符的應(yīng)用超全面詳細(xì)教程

    Python運(yùn)算符是為了實(shí)現(xiàn)數(shù)值或字符運(yùn)算的特殊符號。Python運(yùn)算符可以分為算術(shù)運(yùn)算符、邏輯運(yùn)算符、賦值運(yùn)算符、成員運(yùn)算符、身份運(yùn)算符、比較運(yùn)算符、三目運(yùn)算符等。接下來,我們就開始來學(xué)習(xí)這一堆符號吧
    2022-07-07

最新評論