這篇文章主要介紹了Python sklearn對(duì)文本數(shù)據(jù)進(jìn)行特征化提取，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)吧

文本特征提取

作用：對(duì)文本數(shù)據(jù)進(jìn)行特征化

（句子、短語(yǔ)、單詞、字母）一般選用單詞作為特征值

方法一：CountVectorizer

sklearn.feature_extraction.text.CountVectorizer(stop_words=[])

返回詞頻矩陣(統(tǒng)計(jì)每個(gè)樣本特征詞出現(xiàn)的個(gè)數(shù))

CountVectorizer.fit_transform(X)

X:文本或者包含文本字符串的可迭代對(duì)象

返回值：返回sparse矩陣

CountVectorizer.inverse_transform(X)

X:array數(shù)組或者sparse矩陣

返回值：轉(zhuǎn)換之前的數(shù)據(jù)格式

CountVectorizer.get_feature_names()

返回值：?jiǎn)卧~列表

代碼展示：

from sklearn.feature_extraction.text import CountVectorizer
def count_demo():
    #文本特征抽取
    data=["life is short, i like like python","life is too long,i dislike python"]
    #1、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer=CountVectorizer()
    #2、調(diào)用fit_transform()
    result=transfer.fit_transform(data)
    print("result:\n",result.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None

方法二：TfidfVectorizer

關(guān)鍵詞：在某一個(gè)類別的文章中，出現(xiàn)的次數(shù)很多，但是在其他類別的文章中出現(xiàn)的次數(shù)很少稱為關(guān)鍵詞

Tf-idf文本特征提取

①TF-IDF的主要思想是：如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的概率高，并且在其他文章中很少出現(xiàn)，則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力，適合用來(lái)分類。

②TF-IDF作用：用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。

公式

①詞頻（term frequency，tf）指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的頻率

②逆向文檔頻率（inverse document frequency，idf）是一個(gè)詞語(yǔ)普遍重要性的度量。某一特定詞語(yǔ)的idf，可以由總文件數(shù)目除以包含該詞語(yǔ)之文件數(shù)目，再將得到的商取以10為底的對(duì)數(shù)得到

tfidf = tf * idf

輸出的結(jié)果可以理解為重要程度

API

sklearn.feature_extraction.text.TfidfVectorizer(stop_words=None,...)

返回詞的權(quán)重矩陣

TfidfVectorizer.fit_transform(X)

X:文本或者包含文本字符串的可迭代對(duì)象

返回值：返回sparse矩陣

TfidfVectorizer.inverse_transform(X)

X:array數(shù)組或者sparse矩陣

返回值：轉(zhuǎn)換之前數(shù)據(jù)格式

TfidfVectorizer.get_feature_names()

返回值：?jiǎn)卧~列表

中文分詞+特征提取

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
def cut_word(text):
    #中文分詞
    #jieba.cut(text)返回的是生成器對(duì)象，用list強(qiáng)轉(zhuǎn)成列表
    word=list(jieba.cut(text))
    #轉(zhuǎn)成字符串
    words=" ".join(word)
    return words
def tfidf_demo():
    data = ["今天很殘酷，明天更殘酷，后天會(huì)很美好，但絕大多數(shù)人都死在明天晚上，卻見(jiàn)不到后天的太陽(yáng)，所以我們干什么都要堅(jiān)持",
            "注重自己的名聲，努力工作、與人為善、遵守諾言，這樣對(duì)你們的事業(yè)非常有幫助",
            "服務(wù)是全世界最貴的產(chǎn)品，所以最佳的服務(wù)就是不要服務(wù)，最好的服務(wù)就是不需要服務(wù)"]
    data_new = []
    # 將中文文本進(jìn)行分詞
    for sentence in data:
        data_new.append(cut_word(sentence))
    # 1、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = TfidfVectorizer()
    # 2、調(diào)用fit_transform()
    result = transfer.fit_transform(data_new)  # 得到詞頻矩陣 是一個(gè)sparse矩陣
    print("result:\n", result.toarray())  # 將sparse矩陣轉(zhuǎn)化為二維數(shù)組
    print("特征名字:\n", transfer.get_feature_names())
    return None

到此這篇關(guān)于Python sklearn對(duì)文本數(shù)據(jù)進(jìn)行特征化提取的文章就介紹到這了,更多相關(guān)Python sklearn文本特征提取內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: