青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 33,  comments - 33,  trackbacks - 0
這幾天研究了一下CUDA,發(fā)現(xiàn)其并行的思想和普通的CPU多線程思想不太一致,但還是挺不錯(cuò)。主要是將任務(wù)劃分成一個(gè)個(gè)block,然后每個(gè)block里面再劃分成細(xì)的線程。然后每個(gè)線程做自己做的
事情。這種并行思想很適用于像矩陣運(yùn)算這些元素與元素之間的運(yùn)算并不耦合得很厲害,但整體數(shù)據(jù)很大的情況,這只是我對CUDA的初步感覺。
矩陣相乘的CPU程序如下:

//C = A*B
void MatrixMulCPU(float* _C,const float *_A,const float *_B,int _wa,int _ha,int _wb)
{
    
float sum = 0;
    
for (int i = 0; i < _ha; ++i)
    {
        
for (int j = 0; j < _wb; ++j)
        {
            sum 
= 0;
            
for (int k = 0; k < _wa; ++k)
            {
                sum 
+= (float)_A[i*_wa+k]*(float)_B[k*_wb+ j];
            }
            _C[i
*_wb+j] = (float)sum;
        }
    }
}

從上面可以看出,C(i,j) = sum { A(i,k)*B(k,j) } 0<=k < _wa;耦合程度很小,所以我們可以通過劃分區(qū)域的方法,讓每個(gè)線程負(fù)責(zé)一個(gè)區(qū)域。
怎么劃分呢?首先最初的想法是讓每一個(gè)線程計(jì)算一個(gè)C(i,j),那么估算一下,應(yīng)該需要height_c*width_c,也就是ha*wb個(gè)線程。進(jìn)一步,我們將矩陣按一個(gè)大方格Grid劃分,如果一個(gè)
方格Grid大小是16*16,那么矩陣80*48的可以表示為5(*16) * 3(*16),即16*16個(gè)大格子(block),每一個(gè)格子內(nèi),自然就是(height_c/16) *(width_c/16)個(gè)線程了。
好了,劃分完后,內(nèi)核代碼如下:
計(jì)算版本0:
__global__ void matrix_kernel_0(float* _C,const float* _A,const float *_B,int _wa,int _wb)
{
    
float sum = 0;
    
//找出該線程所在的行列
    int row = blockIdx.y*blockDim.y + threadIdx.y;
    
int col = blockIdx.x*blockDim.x + threadIdx.x;

    
//線程Thread(row,col)負(fù)責(zé)計(jì)算C(row,col)
    for (int i = 0; i < _wa; ++i)
    {
        sum 
+= _A[row*_wa + i]*_B[i*_wb + col];
    }
    _C[row
*_wb + col] = sum;
}

另外一種思路,我們不讓每一個(gè)線程完整計(jì)算一個(gè)C(i,j),通過C(i,j) = sum { A(i,k)*B(k,j) }發(fā)現(xiàn),我們還可以再細(xì)度劃分:
Csub(i,j) = sum{A(i,ksub+offsetA)*B(ksub+offsetB,j)}  0<=ksub < blockSize
C(i,j) = sum{Csub(i,j)}
就是把矩陣分成n*n個(gè)大的子塊,然后每一個(gè)block負(fù)責(zé)計(jì)算子塊i 和 子塊j的子乘積,計(jì)算完畢后加起來則可。這里主要使用了共享顯存作優(yōu)化。

計(jì)算版本1:
__global__ void matrix_kernel_1(float* _C,const float* _A,const float *_B,int _wa,int _wb)
{
    
int bx = blockIdx.x;
    
int by = blockIdx.y;
    
int tx = threadIdx.x;
    
int ty = threadIdx.y;

    
//該block要處理的A
    int aBegin = _wa*(by*BLOCK_SIZE);//A(0,by)
    int aEnd = aBegin + _wa - 1;
    
int aStep = BLOCK_SIZE;//offsetA

    
int bBegin = BLOCK_SIZE*bx;//B(bx,0)
    int bStep = BLOCK_SIZE*_wb;//offsetB
    
    
float cSub = 0;
    
for (int a = aBegin,b = bBegin; a <= aEnd; a += aStep,b += bStep)
    {
        __shared__ 
float As[BLOCK_SIZE][BLOCK_SIZE];
        __shared__ 
float Bs[BLOCK_SIZE][BLOCK_SIZE];
        
//每個(gè)線程負(fù)責(zé)一個(gè)元素拷貝
        As[ty][tx] = _A[a + _wa*ty + tx];
        Bs[ty][tx] 
= _B[b + _wb*ty + tx];

        __syncthreads();
        
        
//每個(gè)線程負(fù)責(zé)計(jì)算一個(gè)子塊i 和 子塊j的子乘積
        for (int k = 0; k < BLOCK_SIZE; ++k)
        {
            cSub 
+= As[ty][k]*Bs[k][tx];
        }

        __syncthreads();
    }

    
//全局地址,向全局寄存器寫回去
    
//一個(gè)線程負(fù)責(zé)一個(gè)元素,一個(gè)block負(fù)責(zé)一個(gè)子塊
    int cIndex = (by*BLOCK_SIZE + ty)*_wb + (bx*BLOCK_SIZE + tx);
    _C[cIndex] 
= cSub;
}


最后寫一個(gè)面向Host的接口函數(shù):

void matrixMulGPU(float* _C,const float *_A,const float *_B,int _wa,int _ha,int _wb)
{
    
float* d_a = myNewOnGPU<float>(_wa*_ha);
    
float* d_b = myNewOnGPU<float>(_wb*_wa);
    
float* d_c = myNewOnGPU<float>(_wb*_ha);
    copyFromCPUToGPU(_A,d_a,_wa
*_ha);
    copyFromCPUToGPU(_B,d_b,_wb
*_wa);
    dim3 threads(BLOCK_SIZE,BLOCK_SIZE);
    dim3 blocks(WC
/BLOCK_SIZE,HC/BLOCK_SIZE);
    matrix_kernel_0
<<<blocks,threads>>>(d_c,d_a,d_b,_wa,_wb);
    cudaThreadSynchronize();
    copyFromGPUToCPU(d_c,_C,_wb
*_ha);

    myDeleteOnGPU(d_a);
    myDeleteOnGPU(d_b);
    myDeleteOnGPU(d_c);
}


調(diào)用的主函數(shù)如下:
#include <stdio.h>
#include 
<cuda_runtime.h>
#include 
<cutil.h>
#include 
<cutil_inline.h>
#include 
<stdlib.h>
#include 
<time.h>
#include 
<math.h>
#include 
<string.h>
#include 
<Windows.h>
#include 
"CUDACommon.h"
#include 
"MatrixMulCPU.h"
#include 
"MatrixMulGPU.h"

void randomInit(float* _data,int _size)
{
    
for (int i = 0; i < _size; ++i)
    {
        _data[i] 
= rand()/(float)RAND_MAX;
    }
}

bool checkError(const float* _A,const float* _B,int _size)
{
    
for (int i = 0 ; i < _size; ++i)
    {
        
if (fabs(_A[i] - _B[i]) > 1.0e-3)
        {
            printf(
"%f \t %f\n",_A[i],_B[i]);
            
return false;
        }
    }
    
return true;
}

int main(int argc, char* argv[])
{
    srand(
13);
    
if(!InitCUDA()) {
        
return 0;
    }

    
float* A = myNewOnCPU<float>(WA*HA);
    
float* B = myNewOnCPU<float>(WB*HB);
    randomInit(A,WA
*HA);
    randomInit(B,WB
*HB);
    
float* C = myNewOnCPU<float>(WC*HC);
    memset(C,
0,sizeof(float)*WC*HC);
    
    
float* C2 = myNewOnCPU<float>(WC*HC);
    memset(C2,
0,sizeof(float)*WC*HC);
    
    unsigned 
int tick1 = GetTickCount();
    MatrixMulCPU(C2,A,B,WA,HA,WB);
    printf(
"CPU use Time : %dms\n",GetTickCount() - tick1);
    unsigned 
int timer = 0;
    cutilCheckError(cutCreateTimer(
&timer));
    cutilCheckError(cutStartTimer(timer));
    {
        matrixMulGPU(C,A,B,WA,HA,WB);
    }
    cutilCheckError(cutStopTimer(timer));
    printf(
"GPU use time: %f (ms) \n", cutGetTimerValue(timer));
    cutilCheckError(cutDeleteTimer(timer));

    
if (checkError(C,C2,WC*HC))
    {
        printf(
"Accept\n");
    }
    
else
    {
        printf(
"Worng Answer\n");
    }

    myDeleteOnCPU(A);
    myDeleteOnCPU(B);
    myDeleteOnCPU(C);
    myDeleteOnCPU(C2);

    
return 0;
}

運(yùn)算結(jié)果如下:
版本0:



版本1:


可以看出,GPU并行性能比CPU好很多,而且版本1優(yōu)于版本0

整個(gè)工程下載:/Files/bennycen/CUDAMatrixMul.rar
posted on 2011-07-26 17:01 bennycen 閱讀(4648) 評論(1)  編輯 收藏 引用 所屬分類: CUDA

只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美日韩国产免费| 麻豆九一精品爱看视频在线观看免费| 欧美日韩国产影院| 亚洲一级在线观看| 亚洲一区二区少妇| 国产深夜精品| 欧美v日韩v国产v| 欧美成人午夜77777| 夜夜嗨网站十八久久| 一本久道久久综合狠狠爱| 国产精品你懂的在线| 久久久久久国产精品mv| 麻豆精品在线视频| 夜夜嗨一区二区| 欧美亚洲视频在线观看| 影音欧美亚洲| 日韩一级大片在线| 国产手机视频一区二区| 欧美成人午夜激情视频| 欧美日韩在线精品| 久久久久久有精品国产| 欧美看片网站| 久久久久久久久久久久久女国产乱| 久久综合国产精品| 亚洲综合色噜噜狠狠| 欧美在线一级视频| 一个色综合av| 久久久久久久综合日本| 亚洲色图自拍| 老司机精品福利视频| 亚洲欧美国产毛片在线| 久久中文在线| 久久成人18免费网站| 欧美成人激情视频| 欧美在线视频在线播放完整版免费观看| 久久久99爱| 亚洲欧美影院| 欧美精品色一区二区三区| 久久精品日韩| 国产精品扒开腿爽爽爽视频| 可以看av的网站久久看| 国产精品美女| 亚洲免费大片| 亚洲老板91色精品久久| 久久aⅴ国产紧身牛仔裤| 亚洲午夜精品在线| 免费日韩视频| 久久午夜影视| 国产私拍一区| 中文国产成人精品| 亚洲作爱视频| 欧美国产专区| 欧美激情中文字幕乱码免费| 国语自产在线不卡| 欧美一区永久视频免费观看| 亚洲欧美日韩视频一区| 欧美日韩少妇| 亚洲免费黄色| 一区二区三区欧美| 欧美激情导航| 亚洲精品免费一区二区三区| 亚洲国产成人久久综合一区| 久久久亚洲国产天美传媒修理工 | 欧美日韩一区三区| 最新成人在线| 一本色道久久综合狠狠躁篇的优点| 另类尿喷潮videofree| 男女精品网站| 在线国产精品播放| 久久综合色播五月| 欧美成人精品一区二区三区| 狠狠综合久久av一区二区老牛| 午夜亚洲福利| 久久露脸国产精品| 伊人精品久久久久7777| 久热精品视频在线观看| 嫩草国产精品入口| 亚洲精一区二区三区| 欧美激情一级片一区二区| 亚洲成在人线av| 99在线精品视频| 欧美色区777第一页| 亚洲一区高清| 老司机一区二区| 91久久极品少妇xxxxⅹ软件| 欧美日韩国产一区二区| 亚洲天堂视频在线观看| 欧美在线观看视频| 在线观看三级视频欧美| 欧美 亚欧 日韩视频在线| 亚洲日本久久| 久久aⅴ乱码一区二区三区| 狠狠色伊人亚洲综合成人| 免费观看成人| 亚洲影音先锋| 欧美成人第一页| 亚洲综合国产| 亚洲第一区中文99精品| 欧美日韩精品免费| 午夜一区二区三区不卡视频| 欧美超级免费视 在线| 亚洲视频中文字幕| 精品福利电影| 国产精品久久久久久户外露出 | 欧美黄污视频| 亚洲中字黄色| 91久久亚洲| 国产欧美精品一区二区三区介绍| 久久日韩精品| 亚洲欧美日韩国产成人精品影院| 欧美va亚洲va国产综合| 午夜精品久久久久久久白皮肤| 精品粉嫩aⅴ一区二区三区四区| 欧美日韩精品免费观看视频完整| 欧美一区二视频在线免费观看| 亚洲人成在线播放| 先锋影音久久久| 在线亚洲成人| 亚洲日本国产| 一区二区三区在线视频免费观看| 欧美午夜精品伦理| 欧美紧缚bdsm在线视频| 久久青草福利网站| 西西人体一区二区| 中日韩美女免费视频网址在线观看 | 国产模特精品视频久久久久 | 亚洲午夜精品17c| 91久久黄色| 欧美成人一区二区三区| 久久久久久久精| 欧美在线观看一二区| 亚洲天堂av图片| 一区二区三区四区国产| 亚洲欧洲在线免费| 91久久精品国产91久久| 伊人久久婷婷| 一色屋精品视频在线看| 国产亚洲女人久久久久毛片| 国产精品久久国产精品99gif| 欧美精品免费播放| 欧美精品亚洲精品| 欧美久久婷婷综合色| 欧美激情精品久久久久久黑人 | 香蕉久久国产| 欧美一级二级三级蜜桃| 亚洲欧美日韩一区二区三区在线| 亚洲一区成人| 香蕉久久国产| 久久精品动漫| 欧美一区二区视频在线观看| 欧美一区三区三区高中清蜜桃| 午夜精品福利电影| 欧美亚洲日本一区| 久久久91精品国产一区二区精品| 久久久999| 开心色5月久久精品| 欧美成人xxx| 欧美日韩视频专区在线播放 | 欧美1区免费| 欧美激情精品久久久久久免费印度| 麻豆精品在线观看| 欧美精品一区二区在线观看 | 欧美在线观看一区| 久久蜜桃香蕉精品一区二区三区| 久久天天躁狠狠躁夜夜av| 狼狼综合久久久久综合网| 欧美成人国产va精品日本一级| 欧美日韩成人在线视频| 国产精品一区二区在线观看| 一区免费观看视频| 日韩视频一区| 欧美一级黄色网| 欧美国产91| 亚洲影院一区| 久久久精品一区| 欧美三级午夜理伦三级中文幕| 国产精品夜色7777狼人| 一区在线视频| 亚洲一区二区三区777| 久久久999精品| 亚洲三级免费| 欧美伊人久久大香线蕉综合69| 欧美电影打屁股sp| 国产精品一卡二| 亚洲免费成人| 久久国产夜色精品鲁鲁99| 欧美激情黄色片| 亚洲欧美日本国产有色| 狂野欧美激情性xxxx| 国产精品日韩精品| 亚洲区一区二| 老司机午夜精品视频| 在线视频一区观看| 嫩草国产精品入口| 国产亚洲一二三区| 亚洲欧美日本日韩| 91久久午夜| 狼人天天伊人久久| 国产日韩欧美在线| 亚洲欧美美女|