快捷導(dǎo)航

pytorch GPU計(jì)算比CPU還慢的可能原因分析

更新時(shí)間：2024年02月22日 08:29:53 作者：Kevin Davis

這篇文章主要介紹了pytorch GPU計(jì)算比CPU還慢的可能原因,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

1. 張量（tensor）太小，難以并行化計(jì)算

我們先來(lái)做個(gè)簡(jiǎn)單實(shí)驗(yàn)：

import torch
import time

def train(size_list, epochs):

    for s in size_list:

        # CPU
        start_time1 = time.time()
        a = torch.ones(s,s)
        for _ in range(epochs):
            a += a
        cpu_time = time.time() - start_time1

        # GPU
        start_time2 = time.time()
        b = torch.ones(s,s).cuda()
        for _ in range(epochs):
            b += b
        gpu_time = time.time() - start_time2

        print('s = %d, CPU_time = %.4fs, GPU_time = %.4fs'%(s, cpu_time, gpu_time))

size_list = [8, 32, 128, 512]
epochs = 100000
train(size_list, 100000)

s = 8, CPU_time = 0.2252s, GPU_time = 0.6376s
s = 32, CPU_time = 0.3321s, GPU_time = 0.6468s
s = 128, CPU_time = 2.2634s, GPU_time = 0.6493s
s = 512, CPU_time = 9.6728s, GPU_time = 1.5587s

可以看到，在tensor維度比較低(s = 8, 32) 時(shí)，CPU的計(jì)算耗時(shí)比GPU少，這是因?yàn)榘褦?shù)據(jù)從CPU搬到GPU也是需要時(shí)間的，GPU加速帶來(lái)的收益被這部分搬運(yùn)時(shí)間抵消了，完全展示不出cuda的加速功能。

當(dāng)tensor維度達(dá)到128或以上時(shí)，GPU的計(jì)算耗時(shí)顯著低于CPU的計(jì)算耗時(shí)，這時(shí)GPU加速帶來(lái)的收益遠(yuǎn)高于搬運(yùn)數(shù)據(jù)所花費(fèi)的時(shí)間，展示出GPU加速的強(qiáng)大能力（老黃牛批！）。

咳咳，分析一下：

GPU加速通過(guò)大量的計(jì)算并行化來(lái)工作。 GPU有大量的內(nèi)核，每個(gè)內(nèi)核都不是很強(qiáng)大，但是核心數(shù)量巨大。PyTorch可以使它們盡可能地并行計(jì)算，在tensor維度比較高的情況下，GPU能夠并行化更多的整體計(jì)算，顯著減少計(jì)算耗時(shí)。

因此，如果遇到pytorch 用CPU比GPU還快的情況時(shí)，可以看看dataloader里單次輸入的 x 維度是否太低，如果太低可以把 batch_size 調(diào)大一點(diǎn)，可以的話增加一下數(shù)據(jù)維度，單次輸入的tensor的shape越大，GPU越能并行化計(jì)算。

當(dāng)然，也不要設(shè)的太大了，比如batch_size設(shè)個(gè)大幾萬(wàn)啥的，再?gòu)?qiáng)的顯卡也遭不住這么折騰。