腳本之家服務器常用軟件

快捷導航

軟件下載

android MAC 驅(qū)動下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

AVX2指令集優(yōu)化浮點數(shù)組求和算法

更新時間：2022年05月18日 15:08:59 作者：concyclics

這篇文章主要為大家介紹了AVX2指令集優(yōu)化浮點數(shù)組求和算法，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪

一、AVX2指令集介紹

AVX2是SIMD(單指令多數(shù)據(jù)流)指令集，支持在一個指令周期內(nèi)同時對256位內(nèi)存進行操作。包含乘法，加法，位運算等功能。下附Intel官網(wǎng)使用文檔。

Intel® Intrinsics Guide

我們本次要用到的指令有 __m256i _mm256_add_pd(__m256i a, __m256i b), __m256i _mm256_add_ps等，（p代表精度precision，s代表single，d代表double）

它們可以一次取256位的內(nèi)存，并按32/64位一個浮點進行加法運算。下附官網(wǎng)描述。

Synopsis

__m256d _mm256_add_pd (__m256d a, __m256d b)

#include <immintrin.h>

Instruction: vaddpd ymm, ymm, ymm

CPUID Flags: AVX

Description

Add packed double-precision (64-bit) floating-point elements in a and b, and store the results in dst.

Operation

FOR j := 0 to 3
	i := j*64
	dst[i+63:i] := a[i+63:i] + b[i+63:i]
ENDFOR
dst[MAX:256] := 0

Performance

Architecture	Latency	Throughput (CPI)
Icelake	4	0.5
Skylake	4	0.5
Broadwell	3	1
Haswell	3	1
Ivy Bridge	3	1

二、代碼實現(xiàn)

0. 數(shù)據(jù)生成

為了比較結(jié)果，我們生成從1到N的等差數(shù)列。這里利用模版兼容不同數(shù)據(jù)類型。由于AVX2指令集一次要操作多個數(shù)據(jù)，為了防止訪存越界，我們將大小擴展到256的整數(shù)倍位比特，也就是32字節(jié)的整數(shù)倍。

uint64_t lowbit(uint64_t x)
{
    return x & (-x);
}
uint64_t extTo2Power(uint64_t n, int i)//arraysize datasize
{
    while(lowbit(n) < i)
        n += lowbit(n);
    return n;
}

template <typename T>
T* getArray(uint64_t size)
{
    uint64_t ExSize = extTo2Power(size, 32/sizeof(T));
    T* arr = new T[ExSize];
    for (uint64_t i = 0; i < size; i++)
        arr[i] = i+1;
    for (uint64_t i = size; i < ExSize; i++)
        arr[i] = 0;
    return arr;
}

1. 普通數(shù)組求和

為了比較性能差異，我們先實現(xiàn)一份普通的數(shù)組求和。這里也使用模版。

template <typename T>
T simpleSum(T* arr, uint64_t size)
{
    T sum = 0;
    for (uint64_t i = 0; i < size; i++)
        sum += arr[i];
    return sum;
}

2. AVX2指令集求和：單精度浮點(float)

這里我們預開一個avx2的整形變量，每次從數(shù)組中取8個32位浮點，加到這個變量上，最后在對這8個32位浮點求和。

float avx2Sum(float* arr, uint64_t size)
{
    float sum[8] = {0};
    __m256 sum256 = _mm256_setzero_ps();
    __m256 load256 = _mm256_setzero_ps();
    for (uint64_t i = 0; i < size; i += 8)
    {
        load256 = _mm256_loadu_ps(&arr[i]);
        sum256 = _mm256_add_ps(sum256, load256);
    }
    sum256 = _mm256_hadd_ps(sum256, sum256);
    sum256 = _mm256_hadd_ps(sum256, sum256);
    _mm256_storeu_ps(sum, sum256);
    sum[0] += sum[4];
    return sum[0];
}

這里的hadd是橫向加法，具體實現(xiàn)類似下圖，可以幫我們實現(xiàn)數(shù)組內(nèi)求和：

3. AVX2指令集求和：雙精度浮點(double)

double avx2Sum(double* arr, uint64_t size)
{
    double sum[4] = {0};
    __m256d sum256 = _mm256_setzero_pd();
    __m256d load256 = _mm256_setzero_pd();
    for (uint64_t i = 0; i < size; i += 4)
    {
        load256 = _mm256_loadu_pd(&arr[i]);
        sum256 = _mm256_add_pd(sum256, load256);
    }
    sum256 = _mm256_hadd_pd(sum256, sum256);
    _mm256_storeu_pd(sum, sum256);
    sum[0] += sum[2];
    return sum[0];
}

三、性能測試

測試環(huán)境

Device	Description
CPU	Intel Core i9-9880H 8-core 2.3GHz
Memory	DDR4-2400MHz Dual-Channel 32GB
complier	Apple Clang-1300.0.29.30

計時方式

利用chrono庫獲取系統(tǒng)時鐘計算運行時間，精確到毫秒級

uint64_t getTime()
{
    uint64_t timems = std::chrono::duration_cast<std::chrono::milliseconds>(std::chrono::system_clock::now().time_since_epoch()).count();
    return timems;
}

測試內(nèi)容

對1到1e9求和，答案應該為500000000500000000, 分別測試float和double。

	uint64_t N = 1e9;
    // compare the performance of normal add and avx2 add
    uint64_t start, end;
    // test float
    cout << "compare float sum: " << endl;
    float* arr3 = getArray<float>(N);
    start = getTime();
    float sum3 = simpleSum(arr3, N);
    end = getTime();
    cout << "float simpleSum time: " << end - start << endl;
    cout << "float simpleSum sum: " << sum3 << endl;
    start = getTime();
    sum3 = avx2Sum(arr3, N);
    end = getTime();
    cout << "float avx2Sum time: " << end - start << endl;
    cout << "float avx2Sum sum: " << sum3 << endl;
    delete[] arr3;
    cout << endl << endl;
    // test double
    cout << "compare double sum: " << endl;
    double* arr4 = getArray<double>(N);
    start = getTime();
    double sum4 = simpleSum(arr4, N);
    end = getTime();
    cout << "double simpleSum time: " << end - start << endl;
    cout << "double simpleSum sum: " << sum4 << endl;
    start = getTime();
    sum4 = avx2Sum(arr4, N);
    end = getTime();
    cout << "double avx2Sum time: " << end - start << endl;
    cout << "double avx2Sum sum: " << sum4 << endl;
    delete[] arr4;
    cout << endl << endl;

進行性能測試

第一次測試

測試命令

g++ -mavx2 avx_big_integer.cpp 
./a.out

測試結(jié)果

方法	耗時(ms)
AVX2加法單精度	615
普通加法單精度	2229
AVX2加法雙精度	1237
普通加法雙精度	2426

這里能看到單精度下已經(jīng)出現(xiàn)了比較明顯的誤差，并且由于普通求和和avx2求和的加法順序不一樣，導致誤差值也不一樣。

第二次測試

測試命令

現(xiàn)在我們再開啟O2編譯優(yōu)化試一試：

g++ -O2 -mavx2 avx_big_integer.cpp 
./a.out

測試結(jié)果

方法	耗時(ms)
AVX2加法 32位	244
普通加法 32位	1012
AVX2加法 64位	476
普通加法 64位	1292

我們發(fā)現(xiàn)，比起上一次對整形的測試，浮點型在開啟O2優(yōu)化后反而是AVX2指令集加法得到了明顯的提升。

四、總結(jié)

可見在進行浮點運算時，用avx2指令集做并行優(yōu)化，能得到比起整形更好的效果。

個人猜測原因：

浮點型加法器比整形加法器復雜許多，流水線操作的效果不那么明顯。
有可能CPU內(nèi)的浮點加法器少于整形加法器，導致O2優(yōu)化亂序執(zhí)行時的優(yōu)化效果不如整形理想。
AVX2指令集可能針對浮點運算有專門的優(yōu)化，使得浮點運算性能和整形運算更為接近。

以上就是AVX2指令集優(yōu)化浮點數(shù)組求和算法的詳細內(nèi)容，更多關(guān)于AVX2指令集浮點數(shù)組求和的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

軟件下載

源碼下載

軟件編程

網(wǎng)絡編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

AVX2指令集優(yōu)化浮點數(shù)組求和算法

目錄

一、AVX2指令集介紹

Synopsis

Description

Operation

Performance

二、代碼實現(xiàn)

0. 數(shù)據(jù)生成

1. 普通數(shù)組求和

2. AVX2指令集求和：單精度浮點(float)

3. AVX2指令集求和：雙精度浮點(double)

三、性能測試

測試環(huán)境

計時方式

測試內(nèi)容

進行性能測試

第一次測試

第二次測試

四、總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

AVX2指令集優(yōu)化浮點數(shù)組求和算法

目錄

一、AVX2指令集介紹

Synopsis

Description

Operation

Performance

二、代碼實現(xiàn)

0. 數(shù)據(jù)生成

1. 普通數(shù)組求和

2. AVX2指令集求和：單精度浮點(float)

3. AVX2指令集求和：雙精度浮點(double)

三、性能測試

測試環(huán)境

計時方式

測試內(nèi)容

進行性能測試

第一次測試

第二次測試

四、總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、AVX2指令集介紹

二、代碼實現(xiàn)

三、性能測試