快捷導(dǎo)航

Pytorch GPU內(nèi)存占用很高,但是利用率很低如何解決

更新時(shí)間：2021年06月01日 09:56:29 作者：Golden-sun

這篇文章主要介紹了Pytorch GPU內(nèi)存占用很高,但是利用率很低的原因及解決方法，具有很好的參考價(jià)值，希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教

1.GPU 占用率，利用率

輸入nvidia-smi來觀察顯卡的GPU內(nèi)存占用率（Memory-Usage），顯卡的GPU利用率（GPU-util）

GPU內(nèi)存占用率（Memory-Usage） 往往是由于模型的大小以及batch size的大小，來影響這個(gè)指標(biāo) 顯卡的GPU利用率（GPU-util） 往往跟代碼有關(guān)，有更多的io運(yùn)算，cpu運(yùn)算就會(huì)導(dǎo)致利用率變低。

比如打印loss, 輸出圖像，等等

在這里插入圖片描述

這個(gè)時(shí)候發(fā)現(xiàn)，有一塊卡的利用率經(jīng)常跳到1%，而其他三塊卡經(jīng)常維持在70%以上

2.原因分析

當(dāng)沒有設(shè)置好CPU的線程數(shù)時(shí)，Volatile GPU-Util參數(shù)是在反復(fù)的跳動(dòng)的，0%，20%，70%，95%，0%。

這樣停息1-2 秒然后又重復(fù)起來。其實(shí)是GPU在等待數(shù)據(jù)從CPU傳輸過來，當(dāng)從總線傳輸?shù)紾PU之后，GPU逐漸起計(jì)算來，利用率會(huì)突然升高，但是GPU的算力很強(qiáng)大，0.5秒就基本能處理完數(shù)據(jù)，所以利用率接下來又會(huì)降下去，等待下一個(gè)batch的傳入。

因此，這個(gè)GPU利用率瓶頸在內(nèi)存帶寬和內(nèi)存介質(zhì)上以及CPU的性能上面。

最好當(dāng)然就是換更好的四代或者更強(qiáng)大的內(nèi)存條，配合更好的CPU。

3.解決方法：

（1）為了提高利用率，首先要將num_workers（線程數(shù)）設(shè)置得體，4,8,16是幾個(gè)常選的幾個(gè)參數(shù)。本人測試過，將num_workers設(shè)置的非常大，例如，24，32,等，其效率反而降低，因?yàn)槟Ｐ托枰獙?shù)據(jù)平均分配到幾個(gè)子線程去進(jìn)行預(yù)處理，分發(fā)等數(shù)據(jù)操作，設(shè)高了反而影響效率。當(dāng)然，線程數(shù)設(shè)置為1，是單個(gè)CPU來進(jìn)行數(shù)據(jù)的預(yù)處理和傳輸給GPU，效率也會(huì)低。其次，當(dāng)你的服務(wù)器或者電腦的內(nèi)存較大，性能較好的時(shí)候，建議打開pin_memory打開，就省掉了將數(shù)據(jù)從CPU傳入到緩存RAM里面，再給傳輸?shù)紾PU上；為True時(shí)是直接映射到GPU的相關(guān)內(nèi)存塊上，省掉了一點(diǎn)數(shù)據(jù)傳輸時(shí)間。

（2）另外的一個(gè)方法是，在PyTorch這個(gè)框架里面，數(shù)據(jù)加載Dataloader上做更改和優(yōu)化，包括num_workers（線程數(shù)），pin_memory，會(huì)提升速度。解決好數(shù)據(jù)傳輸?shù)膸捚款i和GPU的運(yùn)算效率低的問題。在TensorFlow下面，也有這個(gè)加載數(shù)據(jù)的設(shè)置。

（3）修改代碼（我遇到的問題）

每個(gè)iteration 都寫文件了，這個(gè)就會(huì)導(dǎo)致cpu 一直運(yùn)算，GPU 等待

在這里插入圖片描述