"38 попугаев" за 6000 евро - очередной супер-комп

valterg · 23 дек 2009

http://www.regard.ru/catalog/tovar1718.htm
Оказывается это можно купить. И ответ на мой вопрос - действительно 7 PCIe 16x.

Что касается статей, я два года назад уже запускал перемножение матриц. Но тогда СUDA не было - я использовал продукт от rapidmind. Результат был не впечатляющий, но по-моему там всего 8 конвееров использовалось, хоть и "коммерческая" версия была. Потом были другие дела и забросил.

valterg · 23 дек 2009

Нашел я подробности : http://fastra2.ua.ac.be/?page_id=214

А вот тут интересно :
http://www.dvhardware.net/articles25_fastra_2_desktop_supercomputer.html

Unfortunately FASTRA II still suffers from stability issues, it is capable of performing successful computations with all 13 GPUs simultaneously, but it regularly crashes. The stability issues seem to be related to problems with the NVIDIA driver and/or the changes made to the Linux kernel. The researchers hope the publicity surrounding the launch of FASTRA II will help them to get more support to solve these issues.
Нажмите, чтобы раскрыть...

Black_mirror · 23 дек 2009

W4FhLF

У меня сейчас немного функционала переложено на GPU, только умножение матриц и сингулярные разложения (SVD) и только для матриц объёмом большим 1000000 элементов. Т.е. меньше уже нерационально из-за больших latency на передачу данных. Но если попробовать перемножить матрицы 2048х2048 и больше на CPU, а потом на GPU, то становится сразу понятно за чем будущее. Время на GPU (9800GT) ~0.4 ms с копированием в оперативную память. Без копирования порядка 0.1 ms. Попробуй повторить на CPU. Ну может на топовом Core i7 с разогнанной памятью получатся близкие результаты, не сравнивал, было бы кстати интересно.
Нажмите, чтобы раскрыть...

Что-то меня заинтересовало перемножение матриц, решил поумножать матрицы типа float на процессоре C2D T9400 2.53ГГц(L2 - 6Мб).
Исходный алгорит, откомпилирован в 2008 студии с оптимизацией по скорости:

Код (Text):

void line_mul3(float* d,float* s,float k)

{

for(int i=0;i<N;i++)

*d++ +=*s++*k;

}

void matrix_mul3(float* m3,float* m1,float* m2){

memset(m3,0,N*N*sizeof(*m3));

for(int i=0;i<N;i++){

float* l1=m1;

float* l2=m2;

for(int k=0;k<N;k++){

line_mul3(m3,l2,*l1);

l1++;

l2+=N;

}

m1+=N;

m3+=N;

}

}

Результаты для матриц 512x512 - 120 мс, 1024x1024 - 950 мс, 2048x2048 - 9 с, 4096x4096 - 71 c.

А вот алгоритм с привлечением SSE и разбиением внешних циклов(без разбиения начинает раза в два тормозить когда матрица не лезет в кеш):

Код (Text):

#define CACHE 0x80000

#define nk (CACHE/N)

#define ni (CACHE/N)

void matrix_mul5(float* m3,float* m1,float* m2){

memset(m3,0,N*N*sizeof(*m3));

__asm{

mov edi,[m3];

mov esi,[m1];

mov ebx,[m2];

mov ecx,N/ni;

};

l1:

__asm{

push ebx;

push ecx;

push esi;

mov ecx,N/nk;

};

l2:

__asm{

push ecx;

push esi;

push edi;

mov ecx,ni;

};

l3:

__asm{

push ebx

push ecx

push esi

mov ecx,nk/4;

};

l5:

__asm{

movdqa xmm0,[esi]

pshufd xmm3,xmm0,255

pshufd xmm2,xmm0,170

pshufd xmm1,xmm0,85

pshufd xmm0,xmm0,0

push ebx

push ecx

push edi

mov ecx,-N*4

sub ebx,ecx

sub edi,ecx

};

l4:

__asm{

movdqa xmm4,[ebx+ecx]

movdqa xmm5,[ebx+ecx+N*4]

mulps xmm4,xmm0

movdqa xmm6,[ebx+ecx+2*N*4]

mulps xmm5,xmm1

movdqa xmm7,[ebx+ecx+3*N*4]

mulps xmm6,xmm2

mulps xmm7,xmm3

addps xmm5,xmm4

movdqa xmm4,[edi+ecx]

addps xmm7,xmm6

addps xmm5,xmm4

addps xmm7,xmm5

movdqa [edi+ecx],xmm7

add ecx,4*4

js l4

pop edi

pop ecx

pop ebx

add ebx,4*N*4

add esi,4*4

loop l5

pop esi

pop ecx

pop ebx

add esi,N*4;

add edi,N*4;

dec ecx;

ja l3;

pop edi;

pop esi;

pop ecx;

add ebx,nk*N*4

add esi,nk*4

dec ecx

ja l2

pop esi

pop ecx

pop ebx

add esi,ni*N*4;

add edi,ni*N*4;

dec ecx

ja l1

};

}

Результаты для матриц 512x512 - 30 мс, 1024x1024 - 230 мс, 2048x2048 - 1.9 с, 4096x4096 - 18 c, 8192x8192 - 150 c.

Данная версия алгорита быстрее исходного примерно в 4 раза. Правда если считать в MAC'ах/такт(умножение с накоплением), то скорость падает с почти 2 до 1.5 при увеличении размера матрицы. Вообще даже 2 MAC/такт как-то совсем не впечатляют. У кого есть идеи по оптимизации? Понятно что можно попробовать на несколько ядер разбить, только вот даже два потока перемножающих свои матрицы взаимно тормозят друг друга процентов на 20. Поэтому пока интересуют идеи применимые к одному ядру. Да и вообще любопытно понять сколько максимум MAC можно выжать из SSE.

qqwe · 23 дек 2009

о кучи
http://http.developer.nvidia.com/GPUGems/gpugems_part01.html
http://http.developer.nvidia.com/GPUGems2/gpugems2_part01.html
http://http.developer.nvidia.com/GPUGems3/gpugems3_part01.html
3 бесплатных вводных туториальных учебника по гпу/куда от невидии. с картинками.
можно скачать оффлайново метров по 15-18 будут. есть и так в сети

эхх, жалко, что на моей гф го 7150 попробовать не выйдет..

W4FhLF · 24 дек 2009

Black_mirror, у тебя вторая матрица типа уже транспонирована?

W4FhLF · 24 дек 2009

Кстати если начинать сегодня, то OpenCL пока ещё слишком сырой. Он очень близок к CUDA, но CUDA уже отлажена, есть сообщество, куча доков, отличный SDK, а по OpenCL ещё голяк. Поэтому лучше начинать с CUDA. Перейти потом на OpenCL труда не составит.

Black_mirror · 24 дек 2009

W4FhLF
У меня все матрицы хранятся по строкам. Вариант, когда одна из матриц транспонированная, пробовал перемножать таким алгоритмом: for(i) for(j) {s=0 for(k) {s+=a[k]*b[j][k] } c[j]=s}, но он оказался в полтора раза менее эффективным(даже если разбивать внешние циклы) и я на него забил. А сейчас попробовал перемножать алгоритмом Штрассена (всё что меньше 1024x1024 умножаю модифицированным matrix_mul3, с тем отличием что суммирую сразу по 4 строки на SSE, разбиение внешних циклов не делаю - и так в кеш лезет). Результаты для Штрассена: 1024x1024 - 200 мс, 2048x2048 - 1.4c, 4096x4096 - 10c. Вообще в алгоритме нужно сделать оптимизацию по использованию памяти, потому что для матриц 8192x8192 памяти мне уже не хватило, но если кому интересно, то это безумие вот:

Код (Text):

float *alloc(float**heap,int sz){

float *p=*heap;

*heap+=sz;

return p;

}

void line_mul4(int sz,float* d,float* s,int l,float* k)

{

__asm{

mov eax,[k]

movdqa xmm0,[eax]

pshufd xmm3,xmm0,255

pshufd xmm2,xmm0,170

pshufd xmm1,xmm0,85

pshufd xmm0,xmm0,0

mov edi,[d]

mov esi,[s]

mov ebx,[l]

mov ecx,[sz]

imul ecx,-4

sub edi,ecx

sub esi,ecx

lea edx,[esi+ebx]

lea eax,[edx+ebx*2]

add ebx,edx

}

lab:

__asm{

movdqa xmm4,[esi+ecx]

movdqa xmm5,[edx+ecx]

mulps xmm4,xmm0

movdqa xmm6,[ebx+ecx]

mulps xmm5,xmm1

movdqa xmm7,[eax+ecx]

mulps xmm6,xmm2

mulps xmm7,xmm3

addps xmm5,xmm4

addps xmm7,xmm6

movdqa xmm4,[edi+ecx]

addps xmm5,xmm7

addps xmm4,xmm5

movdqa [edi+ecx],xmm4

add ecx,16

js lab

}

}

void matrix_mul4(int sz,float* m3,int d3,float* m1,int d1,float* m2,int d2){

for(int i=0;i<sz;i++)

memset(m3+i*d3,0,sz*sizeof(*m3));

for(int i=0;i<sz;i++){

float* l1=m1;

float* l2=m2;

for(int k=0;k<sz;k+=4){

line_mul4(sz,m3,l2,d2,l1);

l1+=4;

l2+=4*d2;

}

m1+=d1;

m3+=d3;

}

}

void line_add(int sz,float* m3,float* m1,float* m2)

{

__asm mov ecx,[sz];

__asm mov ebx,[m1]

__asm mov esi,[m2]

__asm mov edi,[m3]

__asm imul ecx,-4;

__asm sub ebx,ecx;

__asm sub esi,ecx;

__asm sub edi,ecx

lab:

__asm movdqa xmm0,[ebx+ecx];

__asm movdqa xmm2,[ebx+ecx+16];

__asm movdqa xmm1,[esi+ecx];

__asm movdqa xmm3,[esi+ecx+16];

__asm addps xmm0,xmm1;

__asm addps xmm2,xmm3;

__asm movdqa [edi+ecx],xmm0;

__asm movdqa [edi+ecx+16],xmm2;

__asm add ecx,32;

__asm js lab;

}

void line_sub(int sz,float* m3,float* m1,float* m2)

{

__asm mov ecx,[sz];

__asm mov ebx,[m1]

__asm mov esi,[m2]

__asm mov edi,[m3]

__asm imul ecx,-4;

__asm sub ebx,ecx;

__asm sub esi,ecx;

__asm sub edi,ecx

lab:

__asm movdqa xmm0,[ebx+ecx];

__asm movdqa xmm2,[ebx+ecx+16];

__asm movdqa xmm1,[esi+ecx];

__asm movdqa xmm3,[esi+ecx+16];

__asm subps xmm0,xmm1;

__asm subps xmm2,xmm3;

__asm movdqa [edi+ecx],xmm0;

__asm movdqa [edi+ecx+16],xmm2;

__asm add ecx,32;

__asm js lab;

}

void matrix_add(int sz,float* m3,int d3,float* m1,int d1,float* m2,int d2){

for(int i=0;i<sz;i++){

line_add(sz,m3,m1,m2);

m1+=d1;

m2+=d2;

m3+=d3;

}

}

void matrix_sub(int sz,float* m3,int d3,float* m1,int d1,float* m2,int d2){

for(int i=0;i<sz;i++){

line_sub(sz,m3,m1,m2);

m1+=d1;

m2+=d2;

m3+=d3;

}

}

void matrix_mul8(int sz,float* m3,int d3,float* m1,int d1,float* m2,int d2,float*heap){

if(sz<512){

matrix_mul4(sz,m3,d3,m1,d1,m2,d2);

return;

}

int h=sz/2;

int half=h*h;

float* a11=m1;

float* a12=a11+h;

float* a21=m1+d1*h;

float* a22=a21+h;

float* b11=m2;

float* b12=b11+h;

float* b21=m2+d2*h;

float* b22=b21+h;

float* c11=m3;

float* c12=c11+h;

float* c21=m3+d3*h;

float* c22=c21+h;

float* s1=alloc(&heap,half);

float* s2=alloc(&heap,half);

float* s3=alloc(&heap,half);

float* s4=alloc(&heap,half);

float* s5=alloc(&heap,half);

float* s6=alloc(&heap,half);

float* s7=alloc(&heap,half);

float* s8=alloc(&heap,half);

float* p1=alloc(&heap,half);

float* p2=alloc(&heap,half);

float* p3=alloc(&heap,half);

float* p4=alloc(&heap,half);

float* p5=alloc(&heap,half);

float* p6=alloc(&heap,half);

float* p7=alloc(&heap,half);

float* t1=alloc(&heap,half);

float* t2=alloc(&heap,half);

float* t3=alloc(&heap,half);

matrix_add(h,s1,h,a21,sz,a22,sz);

matrix_sub(h,s2,h,s1,h,a11,sz);

matrix_sub(h,s3,h,a11,sz,a21,sz);

matrix_sub(h,s4,h,a12,sz,s2,h);

matrix_sub(h,s5,h,b12,sz,b11,sz);

matrix_sub(h,s6,h,b22,sz,s5,h);

matrix_sub(h,s7,h,b22,sz,b12,sz);

matrix_sub(h,s8,h,s6,h,b21,sz);

matrix_mul8(h,p1,h,s2,h,s6,h,heap);

matrix_mul8(h,p2,h,a11,sz,b11,sz,heap);

matrix_mul8(h,p3,h,a12,sz,b21,sz,heap);

matrix_mul8(h,p4,h,s3,h,s7,h,heap);

matrix_mul8(h,p5,h,s1,h,s5,h,heap);

matrix_mul8(h,p6,h,s4,h,b22,sz,heap);

matrix_mul8(h,p7,h,a22,sz,s8,h,heap);

matrix_add(h,t1,h,p1,h,p2,h);

matrix_add(h,t2,h,t1,h,p4,h);

matrix_add(h,t3,h,p5,h,p6,h);

matrix_add(h,c11,sz,p2,h,p3,h);

matrix_add(h,c12,sz,t1,h,t3,h);

matrix_sub(h,c21,sz,t2,h,p7,h);

matrix_add(h,c22,sz,t2,h,p5,h);

}

W4FhLF · 21 мар 2010

GPU уже в сторону DB шагает.

A reimplementation of portions of the SQLite database to execute on a GPU, part of the GPGPU-3 workshop. Speed Up 70x.

CyberManiac, привет

Войти или зарегистрироваться

"38 попугаев" за 6000 евро - очередной супер-комп

valterg Active Member

valterg Active Member

Black_mirror Active Member

qqwe New Member

W4FhLF New Member

W4FhLF New Member

Black_mirror Active Member

W4FhLF New Member

Войти или зарегистрироваться

"38 попугаев" за 6000 евро - очередной супер-комп

valterg Active Member

valterg Active Member

Black_mirror Active Member

qqwe New Member

W4FhLF New Member

W4FhLF New Member

Black_mirror Active Member

W4FhLF New Member

Быстрый поиск