Если _size кратно 8, то примерно так: q1 dq 0706050403020100h q2 dq 0808080808080808h movzx eax,byte [_key] movd mm1,eax mov ecx,[_size]...
varnie Во-первых, советуют читать блочно по сравнению с дебильным вариантом т.е. посимвольного чтения с помощью АПИ ReadFile(hFile,buf,1,..),...
varnie Каков вопрос - таков и ответ ;) То вообще беспочвенные рассуждения, то конкретная цифра "до неск килобайт (теоретически)", а теперь...
varnie "Идею о первоначальном считывании всего файла" никто не забраковывал, т.к. все дело в размере файла. При обычном буферированном чтении (без...
cppasm Ха-ха. И где же ты тут видишь 6 "операций" ?. Как я и предполагал, речь идет не об инструкциях или микрооперациях, а о высокоуровневых...
murder После декодирования VectorPath инструкции превращаются в последовательность микроопераций. Поэтому, во-первых, правильнее говорить не "по...
cppasm Это где же ты такое в "ихних мануалах" увидел ?! Может с SSE путаешь - 4 float параллельно ? Ничего "переводить" не нужно. Юзай...
stellaco Интересно, каким образом добавление собственного заголовка в начало каждого кластера\страницы может ускорить доступ ? А если хочешь...
SII Дело не в процах, а в том что в 64-битном long mode используется плоская модель памяти (базовые адреса и переопределения сегментов кроме...
SII Не логическими, а линейными. В 1 томе мануала АМД-64 Technology (chapter 2. Memory model) все достаточно четко расписано: 1) Виртуальное...
murder Не обязательно долгое и не обязательно составного. Например: inc ebx ;(1) mov ecx,[ebx] ;(2) - явная зависимость от (1) по ebx mov...
_DEN_ Все имеет свою "гранулярность" ;) Поэтому перед юзаньем ММ-таймера не забудь вызвать timeBeginPeriod(1), иначе можешь получить ту же...
В варианте "или" - вообще никаких зависимостей нет, т.к. кажущаяся зависимость по reg1 в современных процах устраняется за счет переименования...
exst Латентность веществ.деления зависит от требуемой точности (single,double,extended). В SSE точность определяется типом операции и соотв-но...
exst Латентности инструкций приводятся в мануалах по оптимизации - у АМД подробно (практически для всех команд и вариаций операндов), а у Интел...
Pavia Правильно. Поэтому: Что померить ? Правильно, среднее число тактов на одну итерацию цикла с учетом 1) возможного перекрытия итераций, 2)...
Классика получения abs(eax) без усл.перехода: ;neg eax = (not eax)+1 cdq xor eax,edx sub eax,edx
Span На уровне оптимизации кода - устранения зависимой операции sum+=..., путем разбивки ее на 4 независимых sumd[0]+=.., sumd[1]+=.. и т.д. Т.к....
murder Во-первых, физ.адреса выделяются страницами по 4К, поэтому "непоследовательность" проявляется только при переходах от одной 4К страницы к...
murder Отличие некэшируемой записи movnt от обычной WB-записи заключается в том, что при movnt данные копятся в спец.WC-буферах (write combining)...
Имена участников (разделяйте запятой).