快捷導(dǎo)航

總結(jié)一次C++ 程序優(yōu)化歷程

更新時(shí)間：2020年09月10日 11:57:57 作者：tlanyan

這篇文章主要記錄了一次C++程序優(yōu)化的歷程，給大家優(yōu)化C++程序一些啟發(fā)，感興趣的朋友可以了解下

近期用到了一位師兄寫的C++程序，總體功能良好。使用不同的數(shù)據(jù)測(cè)試，發(fā)現(xiàn)了一個(gè)明顯的缺點(diǎn)：大數(shù)據(jù)量下，預(yù)處理過程耗時(shí)很長(zhǎng)。中科院的某計(jì)算集群，普通隊(duì)列中的程序運(yùn)行時(shí)間不能超過6個(gè)小時(shí)。而手上這套程序，大數(shù)據(jù)量下預(yù)處理就花了不止六個(gè)小時(shí)，結(jié)果當(dāng)然是還沒開始就被結(jié)束了。

和天河二號(hào)的工作人員聯(lián)系，確認(rèn)沒有執(zhí)行時(shí)間限制。于是開通了天河二號(hào)的賬號(hào)，把程序扔上去跑。執(zhí)行大數(shù)據(jù)量時(shí)，程序莫名被kill。詢問技術(shù)支持，得知是內(nèi)存耗盡，建議每個(gè)節(jié)點(diǎn)的進(jìn)程數(shù)少一點(diǎn)。如此折騰了兩次，大數(shù)據(jù)量的例子沒跑通，大部分時(shí)間都費(fèi)在預(yù)處理上，然后程序崩了，又要調(diào)整參數(shù)重新再來。

耗時(shí)長(zhǎng)，最多是多花點(diǎn)機(jī)時(shí)，問題不大。但是沒跑通的情況下每次要等五六個(gè)小時(shí)，然后才知道能否運(yùn)行，測(cè)試然后反饋的過程太低效。忍無可忍，就開始進(jìn)行優(yōu)化吧！

第一步，找出耗時(shí)的點(diǎn)。原來的程序輸出日志用的cout，沒有附帶時(shí)間，不能通過日志發(fā)現(xiàn)耗時(shí)的點(diǎn)。為了找出性能關(guān)鍵點(diǎn)，第一步是改進(jìn)log，在輸出中加上時(shí)間。寫了一個(gè)Log類，替換掉cout，程序的輸出中就帶上時(shí)間了：

#include "../include/Log.hpp"

#include 
#include 
#include 
#include 

using namespace std;

namespace tlanyan {

 string Log::datetimeFormat = "%F %T";

 Log::Log()
 {
 }

 void Log::info(const char* message) {
  cout << getCurrentTime() << " [info] " << message << endl;
 }

 void Log::debug(const char* message) {
#if DEBUG
  cout << getCurrentTime() << " [debug] " << message;
#endif;
 }

 const char* Log::getCurrentTime()
 {
  //locale::global(locale("zh_CN.utf8"));
  time_t t = time(NULL);
  char mbstr[512];
  if (strftime(mbstr, sizeof(mbstr), Log::datetimeFormat.c_str(), localtime(&t))) {
   return mbstr;
  }
  
  cerr << "獲取或格式化時(shí)間錯(cuò)誤!" << endl;

  exit(1);
 }

 Log::~Log()
 {
 }
}

// 調(diào)用示例：
Log::info("program begins...");

通過查看Log，定位到了耗時(shí)長(zhǎng)的過程。

第一步，目測(cè)程序源代碼，找出問題所在。該段代碼比較好理解，主要是進(jìn)行數(shù)據(jù)初始化和打標(biāo)簽。程序中規(guī)中矩，都是操控內(nèi)存中的數(shù)組，沒有磁盤、網(wǎng)絡(luò)、進(jìn)程通信等耗時(shí)調(diào)用。審查代碼中發(fā)現(xiàn)第一個(gè)問題：內(nèi)存重分配。程序聲明了vector，沒有指定大小，后續(xù)代碼中使用push_back對(duì)數(shù)組的每一項(xiàng)進(jìn)行賦值。內(nèi)存分配和數(shù)據(jù)拷貝的代價(jià)是很大的，這應(yīng)該是一個(gè)性能點(diǎn)。修改代碼，聲明時(shí)指定數(shù)組大小。編譯并運(yùn)行程序，結(jié)果表明省下了30%的耗時(shí)。
第二步，統(tǒng)計(jì)代碼的工作量。耗時(shí)過程的初始化數(shù)據(jù)量，大概是整個(gè)數(shù)據(jù)量的10%，就算其中內(nèi)嵌了兩層循環(huán)，也不應(yīng)該耗時(shí)如此多。為了查看是否有額外工作量，加入了計(jì)數(shù)器。運(yùn)行結(jié)果顯示，該段函數(shù)的計(jì)算量不大，耗時(shí)長(zhǎng)應(yīng)該有其他的原因。
第三步，根據(jù)經(jīng)驗(yàn)判斷是緩存失效導(dǎo)致。第一反應(yīng)是用valgrind查看緩存命中，但valgrind模擬運(yùn)行的效率太差，幾個(gè)小時(shí)后kill掉放棄了。目測(cè)程序源碼，發(fā)現(xiàn)很多數(shù)據(jù)都是從全局內(nèi)存讀取，沒有充分利用緩存。修改代碼，使用局部變量緩存全局?jǐn)?shù)據(jù)，接下來代碼中的數(shù)據(jù)使用緩存數(shù)據(jù)。經(jīng)過測(cè)試，效果非常明顯，提升了50%的效率。
第四步，查找其他性能熱點(diǎn)。經(jīng)過幾次小的調(diào)優(yōu)測(cè)試，發(fā)現(xiàn)一些全局內(nèi)存訪問不可避免（隨機(jī)訪問，無法利用緩存），按照目前的方式難以繼續(xù)優(yōu)化。要大幅降低耗時(shí)需要重寫算法，目前無法保證對(duì)算法和程序意圖十分了解，遂暫時(shí)作罷。

優(yōu)化前后的結(jié)果對(duì)比：中等數(shù)據(jù)規(guī)模下，耗時(shí)從8'43"降到3'25"；大數(shù)據(jù)量下，耗時(shí)從4h38'44"降到1h49'21"（注：使用自己的機(jī)器測(cè)試，CPU主頻3.46GHz，比中科院和天河二號(hào)集群的CPU主頻都要高，所以耗時(shí)短）。從數(shù)據(jù)看出，效果還是很明顯的。

以上就是C++ 程序優(yōu)化歷程總結(jié)的詳細(xì)內(nèi)容，更多關(guān)于C++ 程序優(yōu)化的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: