亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python文本特征抽取與向量化算法學(xué)習(xí)

 更新時(shí)間:2017年12月22日 11:19:26   作者:lsldd  
這篇文章主要為大家詳細(xì)介紹了Python文本特征抽取與向量化算法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下

本文為大家分享了Python文本特征抽取與向量化的具體代碼,供大家參考,具體內(nèi)容如下

假設(shè)我們剛看完諾蘭的大片《星際穿越》,設(shè)想如何讓機(jī)器來(lái)自動(dòng)分析各位觀眾對(duì)電影的評(píng)價(jià)到底是“贊”(positive)還是“踩”(negative)呢?

這類(lèi)問(wèn)題就屬于情感分析問(wèn)題。這類(lèi)問(wèn)題處理的第一步,就是將文本轉(zhuǎn)換為特征。

因此,這章我們只學(xué)習(xí)第一步,如何從文本中抽取特征,并將其向量化。

由于中文的處理涉及到分詞問(wèn)題,本文用一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明如何使用Python的機(jī)器學(xué)習(xí)庫(kù),對(duì)英文進(jìn)行特征提取。

1、數(shù)據(jù)準(zhǔn)備

Python的sklearn.datasets支持從目錄讀取所有分類(lèi)好的文本。不過(guò)目錄必須按照一個(gè)文件夾一個(gè)標(biāo)簽名的規(guī)則放好。比如本文使用的數(shù)據(jù)集共有2個(gè)標(biāo)簽,一個(gè)為“net”,一個(gè)為“pos”,每個(gè)目錄下面有6個(gè)文本文件。目錄如下所示:

neg
    1.txt
    2.txt
    ......
pos
    1.txt
    2.txt
    ....

12個(gè)文件的內(nèi)容匯總起來(lái)如下所示:

neg: 
  shit. 
  waste my money. 
  waste of money. 
  sb movie. 
  waste of time. 
  a shit movie. 
pos: 
  nb! nb movie! 
  nb! 
  worth my money. 
  I love this movie! 
  a nb movie. 
  worth it! 

2、文本特征

如何從這些英文中抽取情感態(tài)度而進(jìn)行分類(lèi)呢?

最直觀的做法就是抽取單詞。通常認(rèn)為,很多關(guān)鍵詞能夠反映說(shuō)話者的態(tài)度。比如上面這個(gè)簡(jiǎn)單的數(shù)據(jù)集,很容易發(fā)現(xiàn),凡是說(shuō)了“shit”的,就一定屬于neg類(lèi)。

當(dāng)然,上面數(shù)據(jù)集是為了方便描述而簡(jiǎn)單設(shè)計(jì)的?,F(xiàn)實(shí)中一個(gè)詞經(jīng)常會(huì)有穆棱兩可的態(tài)度。但是仍然有理由相信,某個(gè)單詞在neg類(lèi)中出現(xiàn)的越多,那么他表示neg態(tài)度的概率越大。
同樣我們注意到有些單詞對(duì)情感分類(lèi)是毫無(wú)意義的。比如上述數(shù)據(jù)中的“of”,“I”之類(lèi)的單詞。這類(lèi)詞有個(gè)名字,叫“Stop_Word”(停用詞)。這類(lèi)詞是可以完全忽略掉不做統(tǒng)計(jì)的。顯然忽略掉這些詞,詞頻記錄的存儲(chǔ)空間能夠得到優(yōu)化,而且構(gòu)建速度也更快。
把每個(gè)單詞的詞頻作為重要的特征也存在一個(gè)問(wèn)題。比如上述數(shù)據(jù)中的”movie“,在12個(gè)樣本中出現(xiàn)了5次,但是出現(xiàn)正反兩邊次數(shù)差不多,沒(méi)有什么區(qū)分度。而”worth“出現(xiàn)了2次,但卻只出現(xiàn)在pos類(lèi)中,顯然更具有強(qiáng)烈的剛晴色彩,即區(qū)分度很高。

因此,我們需要引入TF-IDF(Term Frequency-Inverse Document Frequency,詞頻和逆向文件頻率)對(duì)每個(gè)單詞做進(jìn)一步考量。

TF(詞頻)的計(jì)算很簡(jiǎn)單,就是針對(duì)一個(gè)文件t,某個(gè)單詞Nt 出現(xiàn)在該文檔中的頻率。比如文檔“I love this movie”,單詞“l(fā)ove”的TF為1/4。如果去掉停用詞“I"和”it“,則為1/2。

IDF(逆向文件頻率)的意義是,對(duì)于某個(gè)單詞t,凡是出現(xiàn)了該單詞的文檔數(shù)Dt,占了全部測(cè)試文檔D的比例,再求自然對(duì)數(shù)。
比如單詞“movie“一共出現(xiàn)了5次,而文檔總數(shù)為12,因此IDF為ln(5/12)。
很顯然,IDF是為了凸顯那種出現(xiàn)的少,但是占有強(qiáng)烈感情色彩的詞語(yǔ)。比如“movie”這樣的詞的IDF=ln(12/5)=0.88,遠(yuǎn)小于“l(fā)ove”的IDF=ln(12/1)=2.48。

TF-IDF就是把二者簡(jiǎn)單的乘在一起即可。這樣,求出每個(gè)文檔中,每個(gè)單詞的TF-IDF,就是我們提取得到的文本特征值。

3、向量化

有了上述基礎(chǔ),就能夠?qū)⑽臋n向量化了。我們先看代碼,再來(lái)分析向量化的意義:

# -*- coding: utf-8 -*- 
import scipy as sp 
import numpy as np 
from sklearn.datasets import load_files 
from sklearn.cross_validation import train_test_split 
from sklearn.feature_extraction.text import TfidfVectorizer 
 
'''''加載數(shù)據(jù)集,切分?jǐn)?shù)據(jù)集80%訓(xùn)練,20%測(cè)試''' 
movie_reviews = load_files('endata')  
doc_terms_train, doc_terms_test, y_train, y_test\ 
  = train_test_split(movie_reviews.data, movie_reviews.target, test_size = 0.3) 
   
'''''BOOL型特征下的向量空間模型,注意,測(cè)試樣本調(diào)用的是transform接口''' 
count_vec = TfidfVectorizer(binary = False, decode_error = 'ignore',\ 
              stop_words = 'english') 
x_train = count_vec.fit_transform(doc_terms_train) 
x_test = count_vec.transform(doc_terms_test) 
x    = count_vec.transform(movie_reviews.data) 
y    = movie_reviews.target 
print(doc_terms_train) 
print(count_vec.get_feature_names()) 
print(x_train.toarray()) 
print(movie_reviews.target) 

運(yùn)行結(jié)果如下:
[b'waste of time.', b'a shit movie.', b'a nb movie.', b'I love this movie!', b'shit.', b'worth my money.', b'sb movie.', b'worth it!']
['love', 'money', 'movie', 'nb', 'sb', 'shit', 'time', 'waste', 'worth']
[[ 0.          0.          0.          0.          0.          0.   0.70710678  0.70710678  0.        ]
 [ 0.          0.          0.60335753  0.          0.          0.79747081   0.          0.          0.        ]
 [ 0.          0.          0.53550237  0.84453372  0.          0.          0.   0.          0.        ]
 [ 0.84453372  0.          0.53550237  0.          0.          0.          0.   0.          0.        ]
 [ 0.          0.          0.          0.          0.          1.          0.   0.          0.        ]
 [ 0.          0.76642984  0.          0.          0.          0.          0.   0.          0.64232803]
 [ 0.          0.          0.53550237  0.          0.84453372  0.          0.   0.          0.        ]
 [ 0.          0.          0.          0.          0.          0.          0.   0.          1.        ]]
[1 1 0 1 0 1 0 1 1 0 0 0]

python輸出的比較混亂。我這里做了一個(gè)表格如下:

從上表可以發(fā)現(xiàn)如下幾點(diǎn):

1、停用詞的過(guò)濾。

初始化count_vec的時(shí)候,我們?cè)赾ount_vec構(gòu)造時(shí)傳遞了stop_words = 'english',表示使用默認(rèn)的英文停用詞??梢允褂胏ount_vec.get_stop_words()查看TfidfVectorizer內(nèi)置的所有停用詞。當(dāng)然,在這里可以傳遞你自己的停用詞list(比如這里的“movie”)

2、TF-IDF的計(jì)算。

這里詞頻的計(jì)算使用的是sklearn的TfidfVectorizer。這個(gè)類(lèi)繼承于CountVectorizer,在后者基本的詞頻統(tǒng)計(jì)基礎(chǔ)上增加了如TF-IDF之類(lèi)的功能。
我們會(huì)發(fā)現(xiàn)這里計(jì)算的結(jié)果跟我們之前計(jì)算不太一樣。因?yàn)檫@里count_vec構(gòu)造時(shí)默認(rèn)傳遞了max_df=1,因此TF-IDF都做了規(guī)格化處理,以便將所有值約束在[0,1]之間。

3、count_vec.fit_transform的結(jié)果是一個(gè)巨大的矩陣。我們可以看到上表中有大量的0,因此sklearn在內(nèi)部實(shí)現(xiàn)上使用了稀疏矩陣。本例子數(shù)據(jù)較小。如果讀者有興趣,可以試試機(jī)器學(xué)習(xí)科研工作者使用的真實(shí)數(shù)據(jù),來(lái)自康奈爾大學(xué):http://www.cs.cornell.edu/people/pabo/movie-review-data/。這個(gè)網(wǎng)站提供了很多數(shù)據(jù)集,其中有幾個(gè)2M左右的數(shù)據(jù)庫(kù),正反例700個(gè)左右。這樣的數(shù)據(jù)規(guī)模也不算大,1分鐘內(nèi)還是可以跑完的,建議大家試一試。不過(guò)要注意這些數(shù)據(jù)集可能存在非法字符問(wèn)題。所以在構(gòu)造count_vec時(shí),傳入了decode_error = 'ignore',以忽略這些非法字符。

上表的結(jié)果,就是訓(xùn)練8個(gè)樣本的8個(gè)特征的一個(gè)結(jié)果。這個(gè)結(jié)果就可以使用各種分類(lèi)算法進(jìn)行分類(lèi)了。

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • python如何提取xml指定內(nèi)容

    python如何提取xml指定內(nèi)容

    這篇文章主要介紹了python如何提取xml指定內(nèi)容,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-01-01
  • Python 離線工作環(huán)境搭建的方法步驟

    Python 離線工作環(huán)境搭建的方法步驟

    這篇文章主要介紹了Python 離線工作環(huán)境搭建的方法步驟,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-07-07
  • Python實(shí)現(xiàn)ATM系統(tǒng)

    Python實(shí)現(xiàn)ATM系統(tǒng)

    這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)ATM系統(tǒng),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2020-02-02
  • 手把手教你YOLOv5如何進(jìn)行區(qū)域目標(biāo)檢測(cè)

    手把手教你YOLOv5如何進(jìn)行區(qū)域目標(biāo)檢測(cè)

    YOLOV5和YOLOV4有很多相同的地方,最大的改變還是基礎(chǔ)架構(gòu)的變化,下面這篇文章主要給大家介紹了關(guān)于YOLOv5如何進(jìn)行區(qū)域目標(biāo)檢測(cè)的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-12-12
  • 使用Jupyter notebooks上傳文件夾或大量數(shù)據(jù)到服務(wù)器

    使用Jupyter notebooks上傳文件夾或大量數(shù)據(jù)到服務(wù)器

    這篇文章主要介紹了使用Jupyter notebooks上傳文件夾或大量數(shù)據(jù)到服務(wù)器,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-04-04
  • python爬蟲(chóng)實(shí)戰(zhàn)之制作屬于自己的一個(gè)IP代理模塊

    python爬蟲(chóng)實(shí)戰(zhàn)之制作屬于自己的一個(gè)IP代理模塊

    Python爬蟲(chóng)常常會(huì)面臨自己ip地址被封的情況,也許不懂的讀者就只能等ip解封之后再進(jìn)行接下來(lái)的操作了,為什么自己不做一個(gè)Python模塊專(zhuān)門(mén)用于處理這種情況呢?文中對(duì)于讀者開(kāi)發(fā)Python爬蟲(chóng)肯定有一定的幫助,希望讀者耐心看下去,需要的朋友可以參考下
    2021-06-06
  • PyTorch 解決Dataset和Dataloader遇到的問(wèn)題

    PyTorch 解決Dataset和Dataloader遇到的問(wèn)題

    今天小編就為大家分享一篇PyTorch 解決Dataset和Dataloader遇到的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-01-01
  • python 爬取百度文庫(kù)并下載(免費(fèi)文章限定)

    python 爬取百度文庫(kù)并下載(免費(fèi)文章限定)

    這篇文章主要介紹了python 爬取百度文庫(kù)并下載的示例,幫助大家更好的理解和學(xué)習(xí)python 爬蟲(chóng)的相關(guān)知識(shí),感興趣的朋友可以了解下
    2020-12-12
  • 穩(wěn)扎穩(wěn)打?qū)WPython之容器 可迭代對(duì)象 迭代器 生成器專(zhuān)題講解

    穩(wěn)扎穩(wěn)打?qū)WPython之容器 可迭代對(duì)象 迭代器 生成器專(zhuān)題講解

    在剛開(kāi)始學(xué)Python的時(shí)候,是不是經(jīng)常會(huì)聽(tīng)到大佬們?cè)谥v容器、可迭代對(duì)象、迭代器、生成器、列表/集合/字典推導(dǎo)式等等眾多概念,其實(shí)這不是大佬們沒(méi)事就擱那扯專(zhuān)業(yè)術(shù)語(yǔ)來(lái)裝B,而是這些東西都得要明白的,光知道字符串、列表等基礎(chǔ)還是不夠的,尤其是在Python的數(shù)據(jù)結(jié)構(gòu)方面
    2021-10-10
  • Python爬取梨視頻的示例

    Python爬取梨視頻的示例

    這篇文章主要介紹了Python爬取梨視頻的示例,幫助大家更好的利用python進(jìn)行爬蟲(chóng)的學(xué)習(xí)與使用,感興趣的朋友可以了解下
    2021-01-01

最新評(píng)論