腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

AVX2指令集優(yōu)化浮點(diǎn)數(shù)組求和算法

更新時(shí)間：2022年05月18日 15:08:59 作者：concyclics

這篇文章主要為大家介紹了AVX2指令集優(yōu)化浮點(diǎn)數(shù)組求和算法，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

一、AVX2指令集介紹

AVX2是SIMD(單指令多數(shù)據(jù)流)指令集，支持在一個(gè)指令周期內(nèi)同時(shí)對256位內(nèi)存進(jìn)行操作。包含乘法，加法，位運(yùn)算等功能。下附Intel官網(wǎng)使用文檔。

Intel® Intrinsics Guide

我們本次要用到的指令有 __m256i _mm256_add_pd(__m256i a, __m256i b), __m256i _mm256_add_ps等，（p代表精度precision，s代表single，d代表double）

它們可以一次取256位的內(nèi)存，并按32/64位一個(gè)浮點(diǎn)進(jìn)行加法運(yùn)算。下附官網(wǎng)描述。

Synopsis

__m256d _mm256_add_pd (__m256d a, __m256d b)

#include <immintrin.h>

Instruction: vaddpd ymm, ymm, ymm

CPUID Flags: AVX

Description

Add packed double-precision (64-bit) floating-point elements in a and b, and store the results in dst.

Operation

FOR j := 0 to 3
	i := j*64
	dst[i+63:i] := a[i+63:i] + b[i+63:i]
ENDFOR
dst[MAX:256] := 0

Performance

Architecture	Latency	Throughput (CPI)
Icelake	4	0.5
Skylake	4	0.5
Broadwell	3	1
Haswell	3	1
Ivy Bridge	3	1

二、代碼實(shí)現(xiàn)

0. 數(shù)據(jù)生成

為了比較結(jié)果，我們生成從1到N的等差數(shù)列。這里利用模版兼容不同數(shù)據(jù)類型。由于AVX2指令集一次要操作多個(gè)數(shù)據(jù)，為了防止訪存越界，我們將大小擴(kuò)展到256的整數(shù)倍位比特，也就是32字節(jié)的整數(shù)倍。

uint64_t lowbit(uint64_t x)
{
    return x & (-x);
}
uint64_t extTo2Power(uint64_t n, int i)//arraysize datasize
{
    while(lowbit(n) < i)
        n += lowbit(n);
    return n;
}

template <typename T>
T* getArray(uint64_t size)
{
    uint64_t ExSize = extTo2Power(size, 32/sizeof(T));
    T* arr = new T[ExSize];
    for (uint64_t i = 0; i < size; i++)
        arr[i] = i+1;
    for (uint64_t i = size; i < ExSize; i++)
        arr[i] = 0;
    return arr;
}

1. 普通數(shù)組求和

為了比較性能差異，我們先實(shí)現(xiàn)一份普通的數(shù)組求和。這里也使用模版。

template <typename T>
T simpleSum(T* arr, uint64_t size)
{
    T sum = 0;
    for (uint64_t i = 0; i < size; i++)
        sum += arr[i];
    return sum;
}

2. AVX2指令集求和：單精度浮點(diǎn)(float)

這里我們預(yù)開一個(gè)avx2的整形變量，每次從數(shù)組中取8個(gè)32位浮點(diǎn)，加到這個(gè)變量上，最后在對這8個(gè)32位浮點(diǎn)求和。

float avx2Sum(float* arr, uint64_t size)
{
    float sum[8] = {0};
    __m256 sum256 = _mm256_setzero_ps();
    __m256 load256 = _mm256_setzero_ps();
    for (uint64_t i = 0; i < size; i += 8)
    {
        load256 = _mm256_loadu_ps(&arr[i]);
        sum256 = _mm256_add_ps(sum256, load256);
    }
    sum256 = _mm256_hadd_ps(sum256, sum256);
    sum256 = _mm256_hadd_ps(sum256, sum256);
    _mm256_storeu_ps(sum, sum256);
    sum[0] += sum[4];
    return sum[0];
}

這里的hadd是橫向加法，具體實(shí)現(xiàn)類似下圖，可以幫我們實(shí)現(xiàn)數(shù)組內(nèi)求和：

3. AVX2指令集求和：雙精度浮點(diǎn)(double)

double avx2Sum(double* arr, uint64_t size)
{
    double sum[4] = {0};
    __m256d sum256 = _mm256_setzero_pd();
    __m256d load256 = _mm256_setzero_pd();
    for (uint64_t i = 0; i < size; i += 4)
    {
        load256 = _mm256_loadu_pd(&arr[i]);
        sum256 = _mm256_add_pd(sum256, load256);
    }
    sum256 = _mm256_hadd_pd(sum256, sum256);
    _mm256_storeu_pd(sum, sum256);
    sum[0] += sum[2];
    return sum[0];
}

三、性能測試

測試環(huán)境

Device	Description
CPU	Intel Core i9-9880H 8-core 2.3GHz
Memory	DDR4-2400MHz Dual-Channel 32GB
complier	Apple Clang-1300.0.29.30

計(jì)時(shí)方式

利用chrono庫獲取系統(tǒng)時(shí)鐘計(jì)算運(yùn)行時(shí)間，精確到毫秒級

uint64_t getTime()
{
    uint64_t timems = std::chrono::duration_cast<std::chrono::milliseconds>(std::chrono::system_clock::now().time_since_epoch()).count();
    return timems;
}

測試內(nèi)容

對1到1e9求和，答案應(yīng)該為500000000500000000, 分別測試float和double。

	uint64_t N = 1e9;
    // compare the performance of normal add and avx2 add
    uint64_t start, end;
    // test float
    cout << "compare float sum: " << endl;
    float* arr3 = getArray<float>(N);
    start = getTime();
    float sum3 = simpleSum(arr3, N);
    end = getTime();
    cout << "float simpleSum time: " << end - start << endl;
    cout << "float simpleSum sum: " << sum3 << endl;
    start = getTime();
    sum3 = avx2Sum(arr3, N);
    end = getTime();
    cout << "float avx2Sum time: " << end - start << endl;
    cout << "float avx2Sum sum: " << sum3 << endl;
    delete[] arr3;
    cout << endl << endl;
    // test double
    cout << "compare double sum: " << endl;
    double* arr4 = getArray<double>(N);
    start = getTime();
    double sum4 = simpleSum(arr4, N);
    end = getTime();
    cout << "double simpleSum time: " << end - start << endl;
    cout << "double simpleSum sum: " << sum4 << endl;
    start = getTime();
    sum4 = avx2Sum(arr4, N);
    end = getTime();
    cout << "double avx2Sum time: " << end - start << endl;
    cout << "double avx2Sum sum: " << sum4 << endl;
    delete[] arr4;
    cout << endl << endl;

進(jìn)行性能測試

第一次測試

測試命令

g++ -mavx2 avx_big_integer.cpp 
./a.out

測試結(jié)果

方法	耗時(shí)(ms)
AVX2加法單精度	615
普通加法單精度	2229
AVX2加法雙精度	1237
普通加法雙精度	2426

這里能看到單精度下已經(jīng)出現(xiàn)了比較明顯的誤差，并且由于普通求和和avx2求和的加法順序不一樣，導(dǎo)致誤差值也不一樣。

第二次測試

測試命令

現(xiàn)在我們再開啟O2編譯優(yōu)化試一試：

g++ -O2 -mavx2 avx_big_integer.cpp 
./a.out

測試結(jié)果

方法	耗時(shí)(ms)
AVX2加法 32位	244
普通加法 32位	1012
AVX2加法 64位	476
普通加法 64位	1292

我們發(fā)現(xiàn)，比起上一次對整形的測試，浮點(diǎn)型在開啟O2優(yōu)化后反而是AVX2指令集加法得到了明顯的提升。

四、總結(jié)

可見在進(jìn)行浮點(diǎn)運(yùn)算時(shí)，用avx2指令集做并行優(yōu)化，能得到比起整形更好的效果。

個(gè)人猜測原因：

浮點(diǎn)型加法器比整形加法器復(fù)雜許多，流水線操作的效果不那么明顯。
有可能CPU內(nèi)的浮點(diǎn)加法器少于整形加法器，導(dǎo)致O2優(yōu)化亂序執(zhí)行時(shí)的優(yōu)化效果不如整形理想。
AVX2指令集可能針對浮點(diǎn)運(yùn)算有專門的優(yōu)化，使得浮點(diǎn)運(yùn)算性能和整形運(yùn)算更為接近。

以上就是AVX2指令集優(yōu)化浮點(diǎn)數(shù)組求和算法的詳細(xì)內(nèi)容，更多關(guān)于AVX2指令集浮點(diǎn)數(shù)組求和的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

AVX2指令集優(yōu)化浮點(diǎn)數(shù)組求和算法

目錄

一、AVX2指令集介紹

Synopsis

Description

Operation

Performance

二、代碼實(shí)現(xiàn)

0. 數(shù)據(jù)生成

1. 普通數(shù)組求和

2. AVX2指令集求和：單精度浮點(diǎn)(float)

3. AVX2指令集求和：雙精度浮點(diǎn)(double)

三、性能測試

測試環(huán)境

計(jì)時(shí)方式

測試內(nèi)容

進(jìn)行性能測試

第一次測試

第二次測試

四、總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

AVX2指令集優(yōu)化浮點(diǎn)數(shù)組求和算法

目錄

一、AVX2指令集介紹

Synopsis

Description

Operation

Performance

二、代碼實(shí)現(xiàn)

0. 數(shù)據(jù)生成

1. 普通數(shù)組求和

2. AVX2指令集求和：單精度浮點(diǎn)(float)

3. AVX2指令集求和：雙精度浮點(diǎn)(double)

三、性能測試

測試環(huán)境

計(jì)時(shí)方式

測試內(nèi)容

進(jìn)行性能測試

第一次測試

第二次測試

四、總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、AVX2指令集介紹

二、代碼實(shí)現(xiàn)

三、性能測試

四、總結(jié)