亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

pytorch中使用cuda擴展的實現(xiàn)示例

 更新時間:2020年02月12日 11:16:17   作者:outthinker  
這篇文章主要介紹了pytorch中使用cuda擴展的實現(xiàn)示例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧

以下面這個例子作為教程,實現(xiàn)功能是element-wise add;

(pytorch中想調用cuda模塊,還是用另外使用C編寫接口腳本)

第一步:cuda編程的源文件和頭文件

// mathutil_cuda_kernel.cu
// 頭文件,最后一個是cuda特有的
#include <curand.h>
#include <stdio.h>
#include <math.h>
#include <float.h>
#include "mathutil_cuda_kernel.h"

// 獲取GPU線程通道信息
dim3 cuda_gridsize(int n)
{
  int k = (n - 1) / BLOCK + 1;
  int x = k;
  int y = 1;
  if(x > 65535) {
    x = ceil(sqrt(k));
    y = (n - 1) / (x * BLOCK) + 1;
  }
  dim3 d(x, y, 1);
  return d;
}
// 這個函數(shù)是cuda執(zhí)行函數(shù),可以看到細化到了每一個元素
__global__ void broadcast_sum_kernel(float *a, float *b, int x, int y, int size)
{
  int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x + threadIdx.x;
  if(i >= size) return;
  int j = i % x; i = i / x;
  int k = i % y;
  a[IDX2D(j, k, y)] += b[k];
}


// 這個函數(shù)是與c語言函數(shù)鏈接的接口函數(shù)
void broadcast_sum_cuda(float *a, float *b, int x, int y, cudaStream_t stream)
{
  int size = x * y;
  cudaError_t err;
  
  // 上面定義的函數(shù)
  broadcast_sum_kernel<<<cuda_gridsize(size), BLOCK, 0, stream>>>(a, b, x, y, size);

  err = cudaGetLastError();
  if (cudaSuccess != err)
  {
    fprintf(stderr, "CUDA kernel failed : %s\n", cudaGetErrorString(err));
    exit(-1);
  }
}
#ifndef _MATHUTIL_CUDA_KERNEL
#define _MATHUTIL_CUDA_KERNEL

#define IDX2D(i, j, dj) (dj * i + j)
#define IDX3D(i, j, k, dj, dk) (IDX2D(IDX2D(i, j, dj), k, dk))

#define BLOCK 512
#define MAX_STREAMS 512

#ifdef __cplusplus
extern "C" {
#endif

void broadcast_sum_cuda(float *a, float *b, int x, int y, cudaStream_t stream);

#ifdef __cplusplus
}
#endif

#endif

第二步:C編程的源文件和頭文件(接口函數(shù))

// mathutil_cuda.c
// THC是pytorch底層GPU庫
#include <THC/THC.h>
#include "mathutil_cuda_kernel.h"

extern THCState *state;

int broadcast_sum(THCudaTensor *a_tensor, THCudaTensor *b_tensor, int x, int y)
{
  float *a = THCudaTensor_data(state, a_tensor);
  float *b = THCudaTensor_data(state, b_tensor);
  cudaStream_t stream = THCState_getCurrentStream(state);

  // 這里調用之前在cuda中編寫的接口函數(shù)
  broadcast_sum_cuda(a, b, x, y, stream);

  return 1;
}

int broadcast_sum(THCudaTensor *a_tensor, THCudaTensor *b_tensor, int x, int y);

第三步:編譯,先編譯cuda模塊,再編譯接口函數(shù)模塊(不能放在一起同時編譯)

nvcc -c -o mathutil_cuda_kernel.cu.o mathutil_cuda_kernel.cu -x cu -Xcompiler -fPIC -arch=sm_52
import os
import torch
from torch.utils.ffi import create_extension

this_file = os.path.dirname(__file__)

sources = []
headers = []
defines = []
with_cuda = False

if torch.cuda.is_available():
  print('Including CUDA code.')
  sources += ['src/mathutil_cuda.c']
  headers += ['src/mathutil_cuda.h']
  defines += [('WITH_CUDA', None)]
  with_cuda = True

this_file = os.path.dirname(os.path.realpath(__file__))

extra_objects = ['src/mathutil_cuda_kernel.cu.o']  # 這里是編譯好后的.o文件位置
extra_objects = [os.path.join(this_file, fname) for fname in extra_objects]


ffi = create_extension(
  '_ext.cuda_util',
  headers=headers,
  sources=sources,
  define_macros=defines,
  relative_to=__file__,
  with_cuda=with_cuda,
  extra_objects=extra_objects
)

if __name__ == '__main__':
  ffi.build()

第四步:調用cuda模塊

from _ext import cuda_util #從對應路徑中調用編譯好的模塊

a = torch.randn(3, 5).cuda()
b = torch.randn(3, 1).cuda()
mathutil.broadcast_sum(a, b, *map(int, a.size()))

# 上面等價于下面的效果:

a = torch.randn(3, 5)
b = torch.randn(3, 1)
a += b

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • python輸出數(shù)學符號實例

    python輸出數(shù)學符號實例

    這篇文章主要介紹了python輸出數(shù)學符號實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-05-05
  • 使用python制作進度條的方法小結

    使用python制作進度條的方法小結

    偶然間刷到一個視頻,說到:當程序正在運算時,會有一個較長時間的空白期,誰也不知道程序運行的進度如何,不如給他加個進度條,于是我今個就搜尋一下,Python版的進度條都可以怎么寫,感興趣的小伙伴跟著小編一起來看看吧
    2024-04-04
  • Python圖像處理二值化方法實例匯總

    Python圖像處理二值化方法實例匯總

    這篇文章主要介紹了Python圖像處理二值化方法實例匯總,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-07-07
  • PyCharm安裝配置Qt Designer+PyUIC圖文教程

    PyCharm安裝配置Qt Designer+PyUIC圖文教程

    這篇文章主要介紹了PyCharm安裝配置Qt Designer+PyUIC圖文教程,本文通過圖文并茂的形式給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-05-05
  • Python和Pycharm 環(huán)境部署詳細步驟

    Python和Pycharm 環(huán)境部署詳細步驟

    Python環(huán)境搭建過程很多朋友都操作過,本次我們將向大家介紹Python和Pycharm 環(huán)境部署的流程,文章通過圖文的形式給大家展示一目了然一看就懂,需要的朋友參考下吧
    2021-06-06
  • Python 3.8新特征之a(chǎn)syncio REPL

    Python 3.8新特征之a(chǎn)syncio REPL

    我最近都在寫一些Python 3.8的新功能介紹的文章,在自己的項目中也在提前體驗新的Python版本。這篇文章主要介紹了Python 3.8新特征之a(chǎn)syncio REPL,需要的朋友可以參考下
    2019-05-05
  • 在Python中使用模塊的教程

    在Python中使用模塊的教程

    這篇文章主要介紹了在Python中使用模塊的教程,示例代碼基于Python2.x版本,需要的朋友可以參考下
    2015-04-04
  • 在Python中定義和使用抽象類的方法

    在Python中定義和使用抽象類的方法

    提起Java的抽象類大家都比較熟悉,Python中我們可以使用abc模塊來構建抽象類,這里就為大家講解在Python中定義和使用抽象類的方法
    2016-06-06
  • 淺析python中特殊文件和特殊函數(shù)

    淺析python中特殊文件和特殊函數(shù)

    這篇文章主要介紹了python中特殊文件和特殊函數(shù)的相關知識,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-02-02
  • python如何調用字典的key

    python如何調用字典的key

    在本篇文章里小編給大家分享的是關于python調用字典的key方法實例,有興趣點朋友們可以參考學習下。
    2020-05-05

最新評論