Подскажите что, быстрее на P4 (таких 4 блока подряд для xmm0,xmm1,xmm2,xmm3): Код (Text): mov edx,20h pmovmskb eax,xmm0 movd xmm6,eax movd xmm7,esi pslldq xmm6,4 por xmm6,xmm7 movdqa [edi],xmm6 ;edi - 16byte aligned movdqa [edi+10h],xmm5 test eax,eax cmovne eax,edx add edi,eax add esi,10h .xmm1Interation: или Код (Text): pmovmskb eax,xmm0 test eax,eax jz .xmm1Interation movd xmm6,eax movd xmm7,esi pslldq xmm6,4 por xmm6,xmm7 movdqa [edi],xmm6 ;edi - 16byte aligned movdqa [edi+10h],xmm5 add edi,20h add esi,10h .xmm1Interation: и ещё небольшой: Код (Text): movntdq [edi-30h],xmm0 ;[edi-30] - 16byte aligned movntdq [edi-20h],xmm1 movntdq [edi-10h],xmm2 maskmovdqu xmm3,xmm4 или Код (Text): maskmovdqu xmm0,xmm1 ;edi- 16byte aligned movntdq [edi-10h],xmm2 movntdq [edi-20h],xmm3 movntdq [edi-30h],xmm4 выполнится ли за 1 bus transaction?