C++性能剖析教程之循環(huán)展開(kāi)
什么是循環(huán)展開(kāi)?
循環(huán)展開(kāi),英文中稱(chēng)Loop unwinding或loop unrolling,是一種犧牲程序的尺寸來(lái)加快程序的執(zhí)行速度的優(yōu)化方法。可以由程序員完成,也可由編譯器自動(dòng)優(yōu)化完成。循環(huán)展開(kāi)最常用來(lái)降低循環(huán)開(kāi)銷(xiāo),為具有多個(gè)功能單元的處理器提供指令級(jí)并行。也有利于指令流水線的調(diào)度。
循環(huán)展開(kāi)能從兩方面改進(jìn)程序的性能:
- 減少了不直接有助于程序結(jié)果的操作的數(shù)量,例如循環(huán)索引計(jì)算和分支條件。
- 提供了一些方法,可以進(jìn)一步變化代碼,減少整個(gè)計(jì)算中關(guān)鍵路徑上的操作數(shù)量。
循環(huán)展開(kāi)對(duì)程序性能的影響
我們直接以實(shí)際代碼向大家展示循環(huán)展開(kāi)的作用,首先看未經(jīng)過(guò)循環(huán)展開(kāi)優(yōu)化的代碼:
#include <iostream> #include <chrono> int main(){ auto start = std::chrono::system_clock::now(); int sum = 0; int count = 10000; //循環(huán)10000次累加 for(int i = 0;i < count;i++){ sum += i; } auto end = std::chrono::system_clock::now(); std::chrono::duration<double> dura = end - start; std::cout <<"共耗時(shí):"<< dura.count() << "s" << std::endl; return 0; }
類(lèi)似于上面的這段代碼是我們平常工作中經(jīng)常見(jiàn)到的,函數(shù)目的就是求得1+2+……+9998+9999的累加和,每次循環(huán)把i累加到sum變量上,循環(huán)次數(shù)一共10000次。代碼運(yùn)行結(jié)果如下:
可以看出代碼運(yùn)行耗時(shí)0.0000279秒。
下面我們將循環(huán)展開(kāi)一次,即把上述代碼中的循環(huán)改為如下代碼:
for(int i = 0;i < count;i += 2){ sum += i; sum += i+1; }
即每次循環(huán)將i和i+1一起累加到sum變量上,這樣可以把循環(huán)次數(shù)從10000次降低到5000次,由于CPU的高度流水線化,連續(xù)兩個(gè)加法指令增加耗時(shí)很低,所以此版本代碼可以一定程度上提高程序運(yùn)行速度,運(yùn)行結(jié)果如下:
代碼運(yùn)行耗時(shí)0.0000159秒,相較于未優(yōu)化代碼速度快了將近一倍。
當(dāng)然,我們可以繼續(xù)增加循環(huán)展開(kāi)次數(shù)以進(jìn)一步提高程序運(yùn)行速度,但是這個(gè)增加循環(huán)展開(kāi)次數(shù)也是有限度的,當(dāng)達(dá)到了CPU的最高吞吐量之后,繼續(xù)增加循環(huán)展開(kāi)次數(shù)是沒(méi)有意義的。
上述循環(huán)展開(kāi)后的代碼依然有進(jìn)一步優(yōu)化的空間,那就是消除連續(xù)指令的相關(guān)性,以達(dá)到指令級(jí)并行,我們可以看到循環(huán)展開(kāi)后的代碼,循環(huán)體中有兩條語(yǔ)句:sum += i 和 sum += i+1,第二條語(yǔ)句sum += i+1依賴(lài)于第一條命來(lái)sum += i的執(zhí)行結(jié)果,所以這兩條語(yǔ)句只能依次執(zhí)行,限制了CPU進(jìn)一步提高性能的可能。如果我們將循環(huán)體改為如下代碼:
int sum1=0,sum2=0; for(int i=0;i < count;i+=2){ sum1 += i; sum2 += i+1; } sum = sum1 + sum2;
我們新建了兩個(gè)變量sum1和sum2用于存儲(chǔ)循環(huán)展開(kāi)時(shí)兩個(gè)累加語(yǔ)句的累加結(jié)果,最后在循環(huán)體外將兩部分結(jié)果相加得到最終結(jié)果。該代碼中兩個(gè)累加語(yǔ)句之間是互不相關(guān)的,所以CPU可以并行執(zhí)行這兩條指令,以達(dá)到性能的進(jìn)一步提高。下面是運(yùn)行結(jié)果:
代碼運(yùn)行耗時(shí)0.0000073秒,相較于只進(jìn)行循環(huán)展開(kāi)的代碼速度又快了將近一倍。
總結(jié)
由上面三段代碼的運(yùn)行速度對(duì)比可以看出,循環(huán)展開(kāi)對(duì)程序性能有著很重要的影響,可以減少分支預(yù)測(cè)錯(cuò)誤次數(shù),增加取消數(shù)據(jù)相關(guān)進(jìn)一步利用并行執(zhí)行提高速度的機(jī)會(huì)。但是,并不建議大家進(jìn)行手動(dòng)的循環(huán)展開(kāi),在代碼中進(jìn)行循環(huán)展開(kāi)會(huì)導(dǎo)致程序的可讀性下降,代碼膨脹。為了直觀感受循環(huán)展開(kāi)對(duì)性能的影響,上述代碼運(yùn)行結(jié)果均是在不開(kāi)編譯器優(yōu)化的情況下進(jìn)行的測(cè)試,其實(shí)在我們開(kāi)啟了編譯器優(yōu)化的時(shí)候,編譯器會(huì)自動(dòng)對(duì)我們的循環(huán)代碼進(jìn)行循環(huán)展開(kāi),讓我們可以在保持了代碼可讀性的同時(shí),又能享受到循環(huán)展開(kāi)對(duì)我們程序性能的提高。
好了,以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)腳本之家的支持。
相關(guān)文章
C++?system()函數(shù)的常用用法(全網(wǎng)最新)
system()用于從C?/C++程序調(diào)用操作系統(tǒng)命令,這里給大家講解下C++?system()函數(shù)的常用用法,感興趣的朋友跟隨小編一起看看吧2023-01-01C語(yǔ)言數(shù)據(jù)結(jié)構(gòu)中數(shù)制轉(zhuǎn)換實(shí)例代碼
這篇文章主要介紹了C語(yǔ)言數(shù)據(jù)結(jié)構(gòu)中數(shù)制轉(zhuǎn)換實(shí)例代碼的相關(guān)資料,需要的朋友可以參考下2017-03-03Qt使用SQLite數(shù)據(jù)庫(kù)存儲(chǔ)管理圖片文件
這篇文章主要為大家詳細(xì)介紹了Qt如何使用SQLite數(shù)據(jù)庫(kù)實(shí)現(xiàn)存儲(chǔ)管理圖片文件的功能,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2023-04-04C語(yǔ)言 數(shù)據(jù)結(jié)構(gòu)中求解迷宮問(wèn)題實(shí)現(xiàn)方法
這篇文章主要介紹了C語(yǔ)言 數(shù)據(jù)結(jié)構(gòu)中求解迷宮問(wèn)題實(shí)現(xiàn)方法的相關(guān)資料,需要的朋友可以參考下2017-03-03c語(yǔ)言中用位運(yùn)算實(shí)現(xiàn)加法技巧介紹
用位運(yùn)算實(shí)現(xiàn)加法也就是計(jì)算機(jī)用二進(jìn)制進(jìn)行運(yùn)算,32位的CPU只能表示32位內(nèi)的數(shù),這里先用1位數(shù)的加法來(lái)進(jìn)行,需要的朋友可以參考下2012-11-11c語(yǔ)言通過(guò)opencv實(shí)現(xiàn)輪廓處理與切割
這篇文章主要介紹了c語(yǔ)言通過(guò)opencv實(shí)現(xiàn)輪廓處理與切割,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-01-01