alek_sys Чем наивнее вопрос, тем сложнее на него дать ответ в двух словах. Самое простое - это отправить к "праотцам" учить домашнее задание....
TheSvin Кодирование "вручную" это конечно супер. Изредка балуюсь этим делом, но поскольку на память ничего не помню, приходится лазить за...
Кстати еще о тонкостях "при ловле блох". В используемом test.asm от Gray начало макроса соответствует смещению xCh. Поэтому если луп выравнен...
Вот поизвращался с выравниванием длины 5 инструкций на 16 байт (замена [edi+ofs] на [edi+ebp+ofs] при ebp = 0). Разницы никакой. Оказывается тот...
Вот оптимизированный вариант разворота для P3. Для 16,32 сложений на цикл получается пошустрее чем gray_popall.macro P3_ADC_unroll countdeg {...
Gray > "Удивительно и немного обидно, что этот вариант быстрошустр только на старших моделях процессора" В случае с P3 и вообще P6-family это...
Бредовая идея: Если речь идет об "универсальном пакере", то не стоит исключать непростой, но "изящно-эстетичный" вариант - патчить саму прогу,...
Учел замечания semen и S_T_A_S_ по возможности перекрытия ADC за счет добавления инструкций, учитывающих перенос и устраняющих зависимость ADC. На...
semen Ясно, спасибо
S_T_A_S_ Ты все о своем. Почему "обычные"-то числа нельзя складывать. Есть же int16, int32, int64, так почему бы и int512 не использовать. Gray...
semen Да, результат интересный в познавательном плане. Вот только перенос при такой разбивке теряется и к задаче сложения это видимо никак не...
S_T_A_S_ Все-таки я не понимаю, что ты хочешь сказать. Я вроде бы свою мысль уже пояснил: если 3 - это время освобождения порта для приема (не...
S_T_A_S_ Насчет зависимости я конечно понимаю и не зря подчеркнул цитату "to accept the same instruction again". Вопрос в том, как понимать "the...
"Уговорить" P4-1800 15.2.4 выполнять ADC с перекрытием никак не удается. При развороте большую часть MOV удается распараллелить с ADC, но сами...
О развороте цикла. Если разложить все по полочкам, как учит TheSvin, то выдающиеся результаты по развертке цикла на P3 станут более или менее...
Gray А вот меня заинтриговали фантастические результаты с POPAD на P3. Решил попробовать развернуть цикл macro leo с разными регистрами и в...
Gray > macro leo_JZ_pop2 Тут у тебя "опечатка" закралась: по метке @@correct1 должно стоять or edx,ebx а не or ebx,edx иначе ты теряешь...
S_T_A_S > "Только нужно знать больше информации о входных числах" > "Вот, например, числа складывают, а с форматом до сих пор не определились...
Gray > "мне кажется, что в Вашем последнем варианте or eax,edx можно заменить на mov eax,edx" (Слушай, кончай "выкать" - ухо режет, тут все...
Y-e-e-s-s! Идея с перестановкой Jcc дает превосходные результаты при отсутствии переходов. Вот "суперрекорд" на P4, работающий быстрее Gray_SSE2:...
Имена участников (разделяйте запятой).