pytorch GPU計算比CPU還慢的可能原因分析
1. 張量(tensor)太小,難以并行化計算
我們先來做個簡單實驗:
import torch
import time
def train(size_list, epochs):
for s in size_list:
# CPU
start_time1 = time.time()
a = torch.ones(s,s)
for _ in range(epochs):
a += a
cpu_time = time.time() - start_time1
# GPU
start_time2 = time.time()
b = torch.ones(s,s).cuda()
for _ in range(epochs):
b += b
gpu_time = time.time() - start_time2
print('s = %d, CPU_time = %.4fs, GPU_time = %.4fs'%(s, cpu_time, gpu_time))
size_list = [8, 32, 128, 512]
epochs = 100000
train(size_list, 100000)
s = 8, CPU_time = 0.2252s, GPU_time = 0.6376s
s = 32, CPU_time = 0.3321s, GPU_time = 0.6468s
s = 128, CPU_time = 2.2634s, GPU_time = 0.6493s
s = 512, CPU_time = 9.6728s, GPU_time = 1.5587s
可以看到,在tensor維度比較低(s = 8, 32) 時,CPU的計算耗時比GPU少,這是因為把數據從CPU搬到GPU也是需要時間的,GPU加速帶來的收益被這部分搬運時間抵消了,完全展示不出cuda的加速功能。
當tensor維度達到128或以上時,GPU的計算耗時顯著低于CPU的計算耗時,這時GPU加速帶來的收益遠高于搬運數據所花費的時間,展示出GPU加速的強大能力(老黃牛批?。?。
咳咳,分析一下:
GPU加速通過大量的計算并行化來工作。 GPU有大量的內核,每個內核都不是很強大,但是核心數量巨大。PyTorch可以使它們盡可能地并行計算,在tensor維度比較高的情況下,GPU能夠并行化更多的整體計算,顯著減少計算耗時。
因此,如果遇到pytorch 用CPU比GPU還快的情況時,可以看看dataloader里單次輸入的 x 維度是否太低,如果太低可以把 batch_size 調大一點,可以的話增加一下數據維度,單次輸入的tensor的shape越大,GPU越能并行化計算。
當然,也不要設的太大了,比如batch_size設個大幾萬啥的,再強的顯卡也遭不住這么折騰。
2. 模型太過簡單
GPU的強大體現在它的并行計算,數據越大,模型越復雜越能體現出來。
太過簡單的模型CPU一下子就算完了,此時的GPU可能才剛接收完數據,沒法體現GPU的強大。
因此,解決方案也很簡單,換個復雜點的模型或者加深加寬現有的神經網絡模型。
3. CPU 相對 GPU 強太多
在相同的、沒調好的參數情況下,有時候64核的CPU用60%的核心(也就是38個)也能達到一張2080ti顯卡(GPU)的效果。
如果CPU是個64核的芯片,而顯卡是老黃家的古董960,那CPU比GPU快也是完全有可能的,這時候瓶頸就在顯卡了。
總結
以上是我在寫bug代碼時遇到的情況及可能原因,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關文章
python向已存在的excel中新增表,不覆蓋原數據的實例
下面小編就為大家分享一篇python向已存在的excel中新增表,不覆蓋原數據的實例,具有很好超參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05
Python通用驗證碼識別OCR庫ddddocr的安裝使用教程
dddd_ocr是一個用于識別驗證碼的開源庫,又名帶帶弟弟ocr,下面這篇文章主要給大家介紹了關于Python通用驗證碼識別OCR庫ddddocr的安裝使用教程,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考下2022-07-07

