Кстати и первый dword не мешало бы проверить на 0 или -1. Может так: mov esi,long_binary_string mov edi,memory_pointer mov eax,[esi] cdq...
bogrus > "add edi,4 ;теперь считаем любым способом из 10-й задачи" Не все так просто: add edi,4 нужно делать по условию (ecx > 0) & (eax...
Hunter Другими словами, почему ядро Willamette отказывается выполнять ADC с перекрытием ? Возможные причины: 1) Возможно для этого ядра...
К вопросу о "неожиданных эффектах" и "странном" поведении. Во-первых, если внимательно почитатать примечание 1 к таблице латентностей в...
_Explorer Читай Агнера Фога, у него все расписано в деталях и с примерами: 1) оригинал: Agner Fog "How to optimize for the Pentium®...
cresta IA-32 Optimization - это отдельный мануал (24896611.pdf, 2.55 MB). На указанной страничке Intel он идет после 3-го тома.
> "А где можно для команд f.... найти данные о тиках?" 1) Официальные, но неполные данные для P4 см. в IA-32 Intel® Architecture Optimization...
cresta > "Но при этом есть минус..." Минус очень относительный, т.к. экономия одного fld м.б.важна только в случае нехватки регистров....
q_q Точно, прошу прощения. Я кстати о такой фиче или не знал или забыл, так что еще спасибо за информацию.
cresta, q_q Не забывайте очищать стэк FPU при выходе из функции. Использование fsave\frstor это большие тормоза. Поэтому нужно просто...
The Svin Дык никто и не спорит :) Тут, как заметил _BC_, можно спорить только с Intel, которые с каждым новым семейством своих кирпичей...
Сравним продвинутый вариант _BC_ с дубовым вариантом leo по размеру и быстродействию. Размер: a) Вариант _BC_ В оригинале 27 байт, но это...
Мой вопрос остался без ответа - в каких попугаях оценивать быстродействие. Наверное, никого не удивит, что на P4 последний изящный вариант _BC_...
Что-то спецы молчат. Но вроде бы без отладки этот флаг = 0
Hunter > "Вот и стоит задуматься об низкоуровневой оптимизации, если даже на разных ядрах результат может отличаться..." Дык, о чем и речь....
_BC_ > "А как насчет переполнения ?" Не понял, кому адресован вопрос. Если мне, то отвечаю: Если индексы - unsigned, то это или...
> "ОТК забракует ;)" ОТК рекомендовало избегать "тупых чрезмерных проверок". Но для получения 3 независимых бит результата требуется не менее...
А дубово-прозрачный вариант не подходит ? ;eax = ptr to data, ecx = lower index, edx = higher index lea ecx,[ecx+eax*8] lea eax,[edx+eax*8]...
Hunter Сравни свою логику с "логикой" P4 модель 15.2.7 (F27h) Northwood. Три варианта циклов с двумя ADC, зависимыми по флагам (latency: 8 по...
Hunter > "Словно процессор "привыкает" к выполняемым инструкциям :)). А что если далее будет следовать инструкция, отличная от текущей ? Сколько...
Имена участников (разделяйте запятой).