腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

AVX2指令集優(yōu)化整形數(shù)組求和算法

更新時間：2022年05月18日 15:12:18 作者：concyclics

這篇文章主要為大家介紹了AVX2指令集優(yōu)化整形數(shù)組求和算法，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪

一、AVX2指令集介紹

AVX2是SIMD(單指令多數(shù)據(jù)流)指令集，支持在一個指令周期內(nèi)同時對256位內(nèi)存進行操作。包含乘法，加法，位運算等功能。下附Intel官網(wǎng)使用文檔。

Intel® Intrinsics Guide

我們本次要用到的指令有 __m256i _mm256_add_epi32(__m256i a, __m256i b), __m256i _mm256_add_epi64等

它們可以一次取256位的內(nèi)存，并按32/64位一個整形進行加法運算。下附官網(wǎng)描述。

Synopsis

__m256i _mm256_add_epi64 (__m256i a, __m256i b)
#include <immintrin.h>
Instruction: vpaddq ymm, ymm, ymm
CPUID Flags: AVX2

Description

Add packed 64-bit integers in a and b, and store the results in dst.

Operation

FOR j := 0 to 3
	i := j*64
	dst[i+63:i] := a[i+63:i] + b[i+63:i]
ENDFOR
dst[MAX:256] := 0

Performance

Architecture	Latency	Throughput (CPI)
Icelake	1	0.33
Skylake	1	0.33
Broadwell	1	0.5
Haswell	1	0.5

二、代碼實現(xiàn)

0. 數(shù)據(jù)生成

為了比較結(jié)果，我們生成從1到N的等差數(shù)列。這里利用模版兼容不同數(shù)據(jù)類型。由于AVX2指令集一次要操作多個數(shù)據(jù)，為了防止訪存越界，我們將大小擴展到256的整數(shù)倍位比特，也就是32字節(jié)的整數(shù)倍。

uint64_t lowbit(uint64_t x)
{
    return x & (-x);
}
uint64_t extTo2Power(uint64_t n, int i)//arraysize datasize
{
    while(lowbit(n) < i)
        n += lowbit(n);
    return n;
}

template <typename T>
T* getArray(uint64_t size)
{
    uint64_t ExSize = extTo2Power(size, 32/sizeof(T));
    T* arr = new T[ExSize];
    for (uint64_t i = 0; i < size; i++)
        arr[i] = i+1;
    for (uint64_t i = size; i < ExSize; i++)
        arr[i] = 0;
    return arr;
}

1. 普通數(shù)組求和

為了比較性能差異，我們先實現(xiàn)一份普通的數(shù)組求和。這里也使用模版。

template <typename T>
T simpleSum(T* arr, uint64_t size)
{
    T sum = 0;
    for (uint64_t i = 0; i < size; i++)
        sum += arr[i];
    return sum;
}

2. AVX2指令集求和：32位整形

這里我們預(yù)開一個avx2的整形變量，每次從數(shù)組中取8個32位整形，加到這個變量上，最后在對這8個32位整形求和。

int32_t avx2Sum(int32_t* arr, uint64_t size)
{
    int32_t sum[8] = {0};
    __m256i sum256 = _mm256_setzero_si256();
    __m256i load256 = _mm256_setzero_si256();
    for (uint64_t i = 0; i < size; i += 8)
    {
        load256 = _mm256_loadu_si256((__m256i*)&arr[i]);
        sum256 = _mm256_add_epi32(sum256, load256);
    }
    sum256 = _mm256_hadd_epi32(sum256, sum256);
    sum256 = _mm256_hadd_epi32(sum256, sum256);
    _mm256_storeu_si256((__m256i*)sum, sum256);
    sum[0] += sum[4];
    return sum[0];
}

這里的hadd是橫向加法，具體實現(xiàn)類似下圖，可以幫我們實現(xiàn)數(shù)組內(nèi)求和：

3. AVX2指令集求和：64位整形

int64_t avx2Sum(int64_t* arr, uint64_t size)
{
    int64_t sum[4] = {0};
    __m256i sum256 = _mm256_setzero_si256();
    __m256i load256 = _mm256_setzero_si256();
    for (uint64_t i = 0; i < size; i += 4)
    {
        load256 = _mm256_loadu_si256((__m256i*)&arr[i]);
        sum256 = _mm256_add_epi64(sum256, load256);
    }
    _mm256_storeu_si256((__m256i*)sum, sum256);
    sum[0] += sum[1] + sum[2] + sum[3];
    return sum[0];
}

三、性能測試

測試環(huán)境

Device	Description
CPU	Intel Core i9-9880H 8-core 2.3GHz
Memory	DDR4-2400MHz Dual-Channel 32GB
complier	Apple Clang-1300.0.29.30

計時方式

利用chrono庫獲取系統(tǒng)時鐘計算運行時間，精確到毫秒級

uint64_t getTime()
{
    uint64_t timems = std::chrono::duration_cast<std::chrono::milliseconds>(std::chrono::system_clock::now().time_since_epoch()).count();
    return timems;
}

測試內(nèi)容

對1到1e9求和，答案應(yīng)該為500000000500000000, 分別測試32位整形和64位整形。

	uint64_t N = 1e9;
    // compare the performance of normal add and avx2 add
    uint64_t start, end;
    // test int32_t
    cout << "compare int32_t sum: " << endl;
    int32_t* arr = getArray<int32_t>(N);
    start = getTime();
    int32_t sum = simpleSum(arr, N);
    end = getTime();
    cout << "int32_t simpleSum time: " << end - start << endl;
    cout << "int32_t simpleSum sum: " << sum << endl;
    start = getTime();
    sum = avx2Sum(arr, N);
    end = getTime();
    cout << "int32_t avx2Sum time: " << end - start << endl;
    cout << "int32_t avx2Sum sum: " << sum << endl;
    delete[] arr;
    cout << endl << endl;
    // test int64_t
    cout << "compare int64_t sum: " << endl;
    int64_t* arr2 = getArray<int64_t>(N);
    start = getTime();
    int64_t sum2 = simpleSum(arr2, N);
    end = getTime();
    cout << "int64_t simpleSum time: " << end - start << endl;
    cout << "int64_t simpleSum sum: " << sum2 << endl;
    start = getTime();
    sum2 = avx2Sum(arr2, N);
    end = getTime();
    cout << "int64_t avx2Sum time: " << end - start << endl;
    cout << "int64_t avx2Sum sum: " << sum2 << endl;
    delete[] arr2;
    cout << endl << endl;

進行性能測試

第一次測試

測試命令

g++ -mavx2 avx_big_integer.cpp 
./a.out

測試結(jié)果

方法	耗時(ms)
AVX2加法 32位	537
普通加法 32位	1661
AVX2加法 64位	1094
普通加法 64位	1957

可以看出，avx2在32位加法上大致能快3倍，在64位加法上只能快2倍，因為64位下每次只能操作4個變量，而32位能操作8個。

第二次測試

測試命令

現(xiàn)在我們再開啟O2編譯優(yōu)化試一試：

g++ -O2 -mavx2 avx_big_integer.cpp 
./a.out

測試結(jié)果

方法	耗時(ms)
AVX2加法 32位	269
普通加法 32位	342
AVX2加法 64位	516
普通加法 64位	750

發(fā)現(xiàn)開啟O2后相對的性能提升減小很多。

四、總結(jié)

使用AVX2進行指令層面的并行加法，確實提高了運算效率。
但是，這里可能有朋友會有疑問，我們明明是每次同時處理了4/8個整形，為什么加速比達不到4/8倍呢？

個人推斷原因：

VX2加法指令的長度大于普通加法，單次指令實現(xiàn)比普通加法略慢一些。
在進行AVX2加法時，我們每次需要拷貝256位內(nèi)存進對應(yīng)256位的變量內(nèi)，再把結(jié)果拷貝出來，存在拷貝的開支。
普通加法在for循環(huán)內(nèi)可能會激發(fā)流水線執(zhí)行。
開啟O2后普通加法可以激發(fā)并行，提高實際運行效率。

以上就是AVX2指令集優(yōu)化整形數(shù)組求和算法的詳細內(nèi)容，更多關(guān)于AVX2指令集整形數(shù)組求和的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

AVX2指令集優(yōu)化整形數(shù)組求和算法

目錄

一、AVX2指令集介紹

Synopsis

Description

Operation

二、代碼實現(xiàn)

0. 數(shù)據(jù)生成

1. 普通數(shù)組求和

2. AVX2指令集求和：32位整形

3. AVX2指令集求和：64位整形

三、性能測試

測試環(huán)境

計時方式

測試內(nèi)容

進行性能測試

第一次測試

第二次測試

四、總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

AVX2指令集優(yōu)化整形數(shù)組求和算法

目錄

一、AVX2指令集介紹

Synopsis

Description

Operation

二、代碼實現(xiàn)

0. 數(shù)據(jù)生成

1. 普通數(shù)組求和

2. AVX2指令集求和：32位整形

3. AVX2指令集求和：64位整形

三、性能測試

測試環(huán)境

計時方式

測試內(nèi)容

進行性能測試

第一次測試

第二次測試

四、總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、AVX2指令集介紹

二、代碼實現(xiàn)

四、總結(jié)