基于pytorch 預(yù)訓(xùn)練的詞向量用法詳解
如何在pytorch中使用word2vec訓(xùn)練好的詞向量
torch.nn.Embedding()
這個方法是在pytorch中將詞向量和詞對應(yīng)起來的一個方法. 一般情況下,如果我們直接使用下面的這種:
self.embedding = torch.nn.Embedding(num_embeddings=vocab_size, embedding_dim=embeding_dim) num_embeddings=vocab_size 表示詞匯量的大小 embedding_dim=embeding_dim 表示詞向量的維度
這種情況下, 因為沒有指定訓(xùn)練好的詞向量, 所以embedding會幫咱們生成一個隨機的詞向量(但是在我剛剛測試的一個情感二分類問題中, 我發(fā)現(xiàn)好像用不用預(yù)訓(xùn)練的詞向量, 結(jié)果差不多, 不過不排除是因為當(dāng)時使用的模型比較簡單, 導(dǎo)致一些特征根本就沒提取出來).
如果我想使用word2vec預(yù)訓(xùn)練好的詞向量該怎么做呢?
其實很簡單,pytorch已經(jīng)給我們提供好了接口
self.embedding.weight.data.copy_(torch.from_numpy(embeding_vector)) self.embedding.weight.requires_grad = False
上面兩句代碼的意思, 第一句就是導(dǎo)入詞向量, 第二句表示的是在反向傳播的時候, 不要對這些詞向量進行求導(dǎo)更新. 我還看到有人會在優(yōu)化器那里使用這樣的代碼:
# emotion_net是我定義的模型 optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, emotion_net.parameters()), lr=1e-3, betas=(0.9, 0.99))
大概意思也是為了保證詞向量不會被反向傳播而更新, 具體有沒有用我就不清楚了.
其實我感覺大家比較在意的其實應(yīng)該是embeding_vector的形式, 下面我就介紹一下embeding_vector的形式
為了講述方便, 這里定義出下面幾個矩陣
embeding_vector:表示詞向量,每行是一個詞的詞向量,有多少行就說明有多少單詞
word_list:表示單詞列表,里面就是單詞
word_to_index:這個矩陣將word_list中的單詞和embeding_vector中的位置對應(yīng)起來
其實embeding_vector是一個numpy矩陣, 當(dāng)然你看到了, 實際輸入到pytorch的時候, 是需要轉(zhuǎn)換成tensor類型的. 這個矩陣是什么樣子的呢? 其中這個矩陣是 [vocab_size×embeding_dim] [vocab\_size \times embeding\_dim][vocab_size×embeding_dim] 的形式. 其中一共包含vocab_size vocab\_sizevocab_size 個單詞, 每個單詞的維度是 embed_dim embed\_dimembed_dim, 我們把這樣一個矩陣輸入就行了.
之后, 我們要做的其實就是將 word_to_index word\_to\_indexword_to_index 這個矩陣搞出來, 這里的單詞轉(zhuǎn)下標的矩陣, 就是聯(lián)系 embeding_vector embeding\_vectorembeding_vector 和 word_list word\_listword_list 這兩個矩陣的中間者. 我們在輸入到torch.nn.Embedding中之前, 需要先通過 word_to_index word\_to\_indexword_to_index 將單詞轉(zhuǎn)換成 embeding_vector embeding\_vectorembeding_vector 的下標就可以了.
以上這篇基于pytorch 預(yù)訓(xùn)練的詞向量用法詳解就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
- pytorch使用horovod多gpu訓(xùn)練的實現(xiàn)
- pytorch VGG11識別cifar10數(shù)據(jù)集(訓(xùn)練+預(yù)測單張輸入圖片操作)
- 解決pytorch多GPU訓(xùn)練保存的模型,在單GPU環(huán)境下加載出錯問題
- pytorch 使用加載訓(xùn)練好的模型做inference
- Pytorch自己加載單通道圖片用作數(shù)據(jù)集訓(xùn)練的實例
- PyTorch加載預(yù)訓(xùn)練模型實例(pretrained)
- pytorch實現(xiàn)對輸入超過三通道的數(shù)據(jù)進行訓(xùn)練
- Pytorch保存模型用于測試和用于繼續(xù)訓(xùn)練的區(qū)別詳解
- 解決Pytorch 加載訓(xùn)練好的模型 遇到的error問題
- pytorch 準備、訓(xùn)練和測試自己的圖片數(shù)據(jù)的方法
- 使用PyTorch訓(xùn)練一個圖像分類器實例
- 使用PyTorch將文件夾下的圖片分為訓(xùn)練集和驗證集實例
- PyTorch預(yù)訓(xùn)練Bert模型的示例
相關(guān)文章
python3中關(guān)于excel追加寫入格式被覆蓋問題(實例代碼)
這篇文章主要介紹了python3中關(guān)于excel追加寫入格式被覆蓋問題,本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2020-01-01python之當(dāng)你發(fā)現(xiàn)QTimer不能用時的解決方法
今天小編就為大家分享一篇python之當(dāng)你發(fā)現(xiàn)QTimer不能用時的解決方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06pytorch和tensorflow計算Flops和params的詳細過程
這篇文章主要介紹了pytorch和tensorflow計算Flops和params,本文通過實例代碼給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-08-08python爬蟲之利用Selenium+Requests爬取拉勾網(wǎng)
這篇文章主要介紹了python爬蟲之利用Selenium+Requests爬取拉勾網(wǎng),文中有非常詳細的代碼示例,對正在學(xué)習(xí)python爬蟲的小伙伴們有很好的幫助,需要的朋友可以參考下2021-04-04