murder Процессор сбрасывает обычные WB-данные из кэша в ОЗУ, только когда "рак на горе свистнет" - т.е. либо возникнет конфликт адресов или...
Y_Mur Ага, типа "слышал звон" ;) Маны нужно внимательнее читать и улавливать суть, а не отрывочные "упрощенные правила" и кодинг-рулы :D Прочитай...
Оптимизировать можно и на fpu и на SSE путем распараллеливания вычислений, т.е. нужно копить не одну сумму sum, а 4 независимые подсуммы и затем...
cppasm Других нет ;) Во-первых, в P4 только два порта запуска fpu-команд - один для fld\fst и т.п., другой для всего прочего, к тому же эти порты...
l_inc Не знаю. По идее это из разряда "implementation specific", но т.к. случай, прямо скажем - экзотический, то его могли просто не...
l_inc Да, при "самом первом" проходе цикла тоже будет штраф на статическое предсказание. Но, во-первых, первый проход это вообще отдельная...
Что-то у тебя скорость записи хиловатая получается 100Мб/80мс = 1.25Гб/с Вместо того, чтобы с prefetchw связываться лучше бы movntq заюзал ;)
Pavia Ну ты и загнул. Это что ж за суперпроцессоры такие "современные" ? В атлонах и Core 2 только по 3 порта запуска SSE и к тому же не...
Ес-но, поскольку матрица B умещается в кэш
cppasm Если бы было все понятно, то наверное и воросов бы не было ;) "Тонкие" циклы разворачивают для того, чтобы уменьшить относительный вклад...
dgs Серийность - это типа (упорядоченная) последовательность. В суперскалярных компах команды могут выполняться и одновременно по несколько штук...
Как-то уж подозрительно одинаково шустро работают reserve и reserve+commit. Может когда сразу вызывается commit, то таблицы страниц не создаются ?...
Clerk Загадками говоришь - что значит "работает", и "берет свое" ?
Да никакое это не "ускорение", "хрень rdtsc" и т.п., а просто дебильный HT в P4 всю идилию портит ;) Cобрался наконец с отключенным HT проверить -...
Llirik Тогда получится "причем" ;) Т.к. размер операнда нужно брать не от балды, а так чтобы в него заведомо уместился результат деления
Нужно edx перед делением инициализировать - для беззнаковых xor edx,edx, для знаковых cdq. Иначе из-за мусора в edx "рез-т" может не уместиться в...
stellaco Слышал звон, да не знаешь где он ? На каком таком "процессоре" ? Для всей линейки P6 (PIII,PM,Core) - без разницы, а для P4 и AMД...
Y_Mur Не спеши с выводами ;) Clerk на P4 тестил, а ты видимо на атлоне. У меня на атлоне под SP2 практически те же цифири получаются, что и у...
green Во-первых, врядли настолько "эффективно", как при транспонировании ;) Во-вторых, главный тормоз при перемножении больших матриц - это...
Tier А я вообще никакого не имею ;) Прежде чем качать десятки метров фиг знает чего, бегло просмотрел маны\туторы и решил, что игра не стоит свеч...
Имена участников (разделяйте запятой).