преобразование таблиц - оптимизация по скорости

andy_biiig · 16 фев 2006

leo

Я тут поменял материнку и слегка разогнал процессор, так что результаты чуть ушли. Но важно соотношение а не общий показатель.

Моя/твоя соотносятся как 938/1109

Вот такие пироги ...

leo · 16 фев 2006

Соотношение конечно важно, но не очень конструктивно

Интересно бы в тактах оценить - хотя бы пересчитать из мсек-ов через частоту проца и число повторов. Но лучше конечно определять через RDTSC (поищи по форуму тестовую прогу wintest или спроси у bogrus'а), ну а еще лучше посмотреть на симуляцию пайпа CodeAnalyst'ом

PS: У меня атлона под рукой нет, поэтому сам проверить не могу. Мануалы мануалами, но хотелось-бы понять, чего этому зверю по жизни нравится, а что нет

andy_biiig · 17 фев 2006

Что конкретно сделать CodeAnalyst'ом? Он у меня есть, только правильно пользоваться им я пока не научился. Да и Athlon у меня живет меньше месяца. RDTSC от раза к разу дает разный результат, даже при задирании приоритета под самый упор. Усреднить?

leo · 17 фев 2006

Насчет CodeAnalyst'а ничего сказать не могу. Может S_T_A_S_ откликнется, как главный симулятор ))

Что касается RDTSC, то разные результаты могут получаться по несколькии причинам

1) результаты первого (иногда и второго) прохода всегда получаются завышенными, из-за того что код и данные еще не загружены в кэш и не настроено предсказание переходов (при наличии ветвлений)

2) в разных проходах используются разные данные - возможна подгрузка данных в кэш, зависимость латентности некоторых операций от операндов, изменение направления ветвлений

3) вклинивание винды, если время выполнения теста превышает квант времени потока

4) влияние параллельного потока в (квази)двухпроцессорных системах, особенно с убогим Hyper-Threading'ом P4

Поэтому в отличие от измерений по GetTickCount, с RDTSC нужно поступать совершенно по другому - не крутить циклы с огромным числом повторений, а наоборот стремиться уложиться в квант 10 мс, и ес-но ничего не усреднять, а выводить серию результатов по 6-10 проходам. Если не используется H-T, нет виндовых прерываний и измерения проводятся на одних и тех же данных (данные в кэше и переходы ведут себя одинаково), то обычно первые два результата получаются завышенными, а остальные идут (практически) тик в тик - это и есть искомый результат.

Есть некоторые особенности:

1) в P4 и атлонах во избежание огромных пенальти нельзя писать данные в секцию кода.

2) в P4 дискретность RDTSC составляет 4 тика, а в P4E все 8, поэтому точнее 4(8) тиков можно оценивать только результаты тестирования циклов (в пересчете на цикл)

3) если для сериализации RDTSC используется CPUID, то при наличии в тестовом куске записи в память возникает дополнительная задержка на выталкивание буферов записи в кэш, которая обычно выполняется в фоне. В этом сл. более точные рез-ты на пеньках дает замена CPUID на CLD (на атлонах неизвестно)

4) ну и с H-T в P4 одна морока, результаты могут различаться в десятки раз.

bogrus · 17 фев 2006

Я и незнаю, wintest вообще нормально работает на x64?

Что конкретно сделать CodeAnalyst'ом?
Нажмите, чтобы раскрыть...

Там цветные картинки S_T_A_S_ когда-то вылаживал, на них видно в каких юнитах и сколько тактов выполняется каждая команда

andy_biiig · 17 фев 2006

leo

Каюсь, посыпаю голову пеплом...

Я же тестовый проект в MSVS делал, а у него хватило интеллекта сохранять/восстанавливать изменяемые регистры ESI, EDI на стеке. Это здорово подкашивало твой вариант. Обнаружил, разглядывая код в CodeAnalyst. Поправил, почувствовал разницу.

Вот результат по RDTSC.

prc0 ticks: 178 17 17 21 21 17 17 17 17 17 - твоя

prc2 ticks: 179 24 24 24 26 24 24 24 24 24 - моя

Иногда в первой итерации получается еще медленнее

-- Но вот в конечном проекте итог получается медленнее.

вызовы располагаются примерно так:

Код (Text):

movq SBIn, mm0

[b]call _dotablexlat[/b]

movq mm7, SBOut

movq mm0, BC1Out6

pxor mm0, mm7

movq BC1Out6, mm0

movq mm1, mm2

pxor mm1, mm0

movq BC1Out2, mm1

movq mm2, mm3

pxor mm2, mm0

movq mm3, BC1Out0

pxor mm3, mm0

call _do???????

movq mm1, BC1Out4

pxor mm1, mm7

movq BC1Out4, mm1

movq mm0, KB+53*8

pxor mm0, mm1

movq SBIn, mm0

[b]call _dotablexlat[/b]

leo · 17 фев 2006

bogrus

> "wintest вообще нормально работает на x64?"Речь идет о x86 legacy mode, поэтому должно быть нормально

andy_biiig

17 тиков это гуд, значит мануалы AMD в первом приближении рулят и в простых случаях можно обойтись и без CodeAnalyst'а

Но вот смотрю я на твой MMX-код и думается мне, что если бы не большое число задействованных регистров, то на 32-битных было бы быстрее. Во-первых, после call _dotablexlat сразу идет загрузка результата в mm7 - типичный store-to-load forwarding stall. Сохраняли по частям, а грузим целиком 64 бита, форвардинг отдыхает, проц. неизвестно сколько ждет отставки последней записи и попадания данных в кэш (мануалы говорят о up to tens clock cycles). Тут по кр.мере нужно загрузку mm0 поставить раньше mm7. Да и латентности mmx-операций вдвое больше 32-битных..

S_T_A_S_ · 17 фев 2006

andy_biiig

Лучше _dotablexlat сделать макросом, а не подпрограммой, что бы код инлайнился. На вызов+возврат тратится время.

По RDTSC этот код имхо действительно измерять не стоит, слишком велика погрешность. Если код leo действительно в реальной задаче хуже - значит влияет большая нагрузка на кэш, о которой он писал. Это ещё и различается для разных входных данных. Тут нужно точно определить проблему для начала.

Делайте в Аналисте симуляцию пайпа, смотрите как зелёные (светлые и тёмные) квадратики расположены - это ваполниние (впрочем, там тултипы всплывают, если навести мышкой, и зависимости пишет). Если есть красные - то совсем ахтунг, нужно что-то менять.

Попробовал помучить код leo (и даже показалось, что улучшил его на такт =))... Похоже теория как всегда что-то упрощает.

На картинке код нерабочий, просто что бы показать, что некоторых команд бояться не стоит: если 3ю (movzx) поменять на mov - ничего не меняется. А вот замена вроде movzx edi, dh вроде как даёт выигрыш =)

У кода проблема - слишком высока плотность, а команды многие зависимы. Если бы их как то разбавить вот тем mmx что в реальном сорце - имхо самую большую выгоду можно получить будет.

1018780220__xlat.PNG

andy_biiig · 19 фев 2006

leo

Регистров MMX используется не просто много, они используются все . В той процедурке, которую я вопросиками пометил, заюзаны остальные.

Весь фокус в том, что операции в алгоритме производятся с байтовыми величинами, и для скорости обрабатывается 8 наборов одновременно, "на всю ширину MMX"

Только табличное преобразование, которое мы тут мучаем, и не удалось переписать на MMX

S_T_A_S_

Это преобразование используется в процедурке с развернутым циклом, вызывается 56 раз. Процедурка уже около 1700 строк, но разворачивание цикла имело плюсы по алгоритму - избавился от циклического сдвига данных в массиве.

Будут ли минусы, если я туда еще наинлайню?

CodeAnalyst вываливается на попытке симуляции. На простом примере ничего, а на реальной программе - кирдык. Мож ему треды не нравятся? Там все вычисления в отдельном треде.

S_T_A_S_ · 19 фев 2006

Минусы от инлайна - бОльшая нагрузка на кеш команд. Только измерив можно сказать, перевесит ли это плюсы. Скорее всего, да, раз уж и разворачивание цикла помогло.

К тому же, вот такие участки можно будет переписать под обычные регистры:

Код (Text):

movqmm7, SBOut

movqmm0, BC1Out6

pxormm0, mm7

movqBC1Out6, mm0

По поводу трэдов - хз, всегда симулировал только однотрэдовые приложения. Скорее всего они мешают, т.к. трэды выполняются в разных контекстах.

leo · 19 фев 2006

S_T_A_S_

> "замена вроде movzx edi,dh вроде как даёт выигрыш =)"

Странно как-то - на твоей картинке movzx edi,dh выполняется на такт раньше, чем mov edx,[..]

Даже если рулит некий data forwarding, то они в лучшем случае должны выполнится одновременно - в чем я сильно сомневаюсь, т.к. аналогичная mov ecx,al как и положено ждет загрузки mov eax,[..]

ИМХО видимо это глюк CodeAnalyst'а

andy_biiig · 20 фев 2006

S_T_A_S_

movq mm7, SBOut

movq mm0, BC1Out6

pxor mm0, mm7

movq BC1Out6, mm0

Этот код нельзя заменить на обычные регистры. Все разряды MMX используются

leo · 20 фев 2006

andy_biiig

Как я уже говорил, неприятный момент во всем этом деле это ограничение на store-to-load forwarding (SLF). Все мануалы и AMD, и Intel говорят о том, что если адрес и\или размер загружаемых данных, которые были "только что" сохранены не совпадают, то возможна "значительная" задержка загрузки данных. Не знаю насколько большой штраф получается в данном случае, но его можно избежать, если _dotablexlat будет просто выдывать результат в регистрах (eax,edx). Тогда дальше можно поступить так

Код (Text):

xor [BS1Out6],eax ;xxxx - 4 тика (перенесли сюда из _dotablexlat)

xor [BS1Out6+4],edx ;хххх

;mov [SBOut],eax ;.ххх - если нужно

;mov [SBOut+4],edx ;.xxx

movd mm0,[BS1Out6] ;....xxxx - 4 тика без штрафа - данные берутся из буфера записи

movd mm1,[BS1Out6+4] ;....xxxx

;movq mm7,[SBOut] ;тут можно и со штрафом

punpackldq mm0,mm1 ;........xx - получили mm0

(Кстати перенос части 32-бит кода из _dotablexlat полезен еще тем, что MMX-конвеер на несколько тактов длиннее целочисленного, поэтому после перехода по ret первому MMX-мопу нужно больше времени, чтобы добраться до исп.устройства)

Аналогичная, но немного отличающаяся ситуация и при втором вызове _dotablexlat. Тут сохраняется SBOut и затем грузятся два дворда, причем в AMD64 младший дворд грузится без штрафа, а старший со штрафом из-за ограничения на SLF (видимо поэтому мой вариант преобразования и оказывается хуже, т.к. он в первую очередь обрабатывает старший дворд). Поэтому эту часть лучше тоже изменить (тут вопрос - что сидит в mm7 и есть ли его копия в памяти)

PS: Насчет скорости MMX и GPR: не знаю, что делает _do????, но замена MMX-кода от call _dotablexlat до call _d??? на GPR с загрузкой и сохранием 32-битных операндов в память дает ту же скорость, что и ММХ (правда размер кода существенно увеличивается). Вот если бы можно было ксорить данные в памяти без переписывания на другое место, то возможно на GPR было бы побыстрее

andy_biiig · 20 фев 2006

leo

Этак мы по всему коду пройдемся

После загрузки в mm7 значение SBOut более не нужно, а вот в mm7 оно нужно на вход _do????. В принципе, mm4-mm6 свободны (используются как временные в _do????), так что можно оперировать ими, вообще не записывая в SBOut, и даже в SBIn можно не писать. Я еще не обдумал это, т.к. в предыдущей реализации свободных регистров небыло. Теперь есть

_do???? это перемешивание битов, т.е. каждому входному биту соответствует выходной, но с другим номером.

Вход mm7, выход mm7, преобразование фиксированное.

Код (Text):

;

; movq mm7, SBOut

; variant 1

movq mm6, mm7

movq mm5, mm7

movq mm4, mm7

pand mm6, Mask292929h

pand mm5, Mask404040h

pand mm4, Mask101010h

psllq mm6, 1

psrlq mm5, 6

psrlq mm4, 2

paddb mm4, mm6

paddb mm4, mm5

movq mm6, mm7

movq mm5, mm7

pand mm7, Mask020202h

pand mm6, Mask040404h

pand mm5, Mask808080h

psllq mm7, 6

psllq mm6, 3

psrlq mm5, 4

paddb mm4, mm6

paddb mm7, mm5

paddb mm7, mm4

retn

leo · 21 фев 2006

Вопрос: нужно ли каждый раз специально перемешивать биты в _do????

Ведь байты SDout вытаскиваются из tXlat, поэтому в ней же можно хранить и предвычесленные значения с перемешанными битами и соотв-но затолкать формирование SDOut и перемешанного значения в _dotablexlat. Возможно это будет быстрее чем две разные процедуры

Иначе не знаю, вроде бы на GPR _do???? получается по скорости примерно также или чуть быстрее, но зато объем кода существенно увеличивается. Поэтому из плюсов только устранение проблемы со store-forwarding'ом (если она вообще проявляется и возможная экономия нескольких тактов за счет перекрытия с предыдущим MMX-кодом при спекулятивном исполнении call

andy_biiig · 21 фев 2006

leo

Sorry, неверно выразился. SBout, полученный по таблице, используется и напрямую, как вход для перемешивания.

Вот реализация этого куска на паскале (я так понимаю, для настоящего гуру язык не важен? ))

Обрабатываемый блок в R[0..7]. Этот алгоритм байт-ориентированный. Асмовый вариант обрабатывает параллельно 8 блоков.

Код (Text):

for i:=55 downto 0 do

begin

SBin:=kb[i] xor R[6];

r8buf:=tXlat[SBin] xor R[7];

// ^ с этого преобразования началась наша тема

R[7]:=R[6];

R[6]:=R[5] xor BitPermute[SBin]; // это _do????, представленная таблицей 256 байт

R[5]:=R[4];

R[4]:=R[3] xor r8buf;

R[3]:=R[2] xor r8buf;

R[2]:=R[1] xor r8buf;

R[1]:=R[0];

R[0]:=r8buf;

end;

andy_biiig · 21 фев 2006

В принципе да, можно сделать в таблице tXlat в нижнем байте нормальное значение, в верхнем - перемешанное. Тогда минус перемешивание, но плюс "разрывание" выбранного из таблицы результата по ah,al или масками

Я это все пока не попробовал, но обязательно буду.

andy_biiig · 21 фев 2006

leo

Заменил в твоем варианте

Код (Text):

mov edx,[SBIn]

mov eax,[SBIn+4]

на

Код (Text):

movd edx, mm0

punpckhdq mm0,mm0

movd eax, mm0

и убрал сохранение SBIn перед вызовами процедуры. Твой вариант стал быстрее моего в итоговом проекте. Видимо, поборол SLF. но время выросло с 17 до 21 тика. Будем думать дальше...

leo · 22 фев 2006

Из приведенного тобой куска не очень понятно каким образом параллельно 8 блоков обрабатываются...

Что касается исходного побайтного алгоритма, то его можно попробовать реализовать так:

Код (Text):

XTab: db tXlat_0, 0, BitPermute_0, 0 ;совмещенная таблица

db tXlat_1, 0, BitPermute_1, 0

...

movzx edi,byte [kb+55]

mov eax,[R+4]

mov edx,[R] ;-> R[0],R[1],R[2],R[3]

bswap eax ;-> R[7],R[6],R[5],R[4]

mov esi,56

movzx ecx,ah ;-> R[6]

xor ecx,edi ;-> SBIn = R[6] xor kb[i]

align 16

@@:

xor eax,[XTab+ecx*4] ;-> R[7] xor tXlat, R[6], R[5] xor BitPermute,R[4]

mov ebx,edx

shl edx,8 ;-> 0,R[0],R[1],R[2]

and ebx,0FF000000h ;-> 0,0,0,R[3]

movzx edi,byte[kb+esi-2] ;предвыборка для след.цикла

movzx ecx,al ;r8buf = R[7] xor tXlat

imul ecx,01010001h ;-> r8buf,0,r8buf,r8buf

ror eax,8 ;-> R[6],R[5] xor BitPermute,R[4],r8buf

xor edx,ecx ;-> r8buf,R[0],R[1] xor R8buf,R[2] xor r8buf

nop ;для устр.конфликта с imul

movzx ecx,ah ;-> R[6] для след.цикла

xor eax,ebx ;-> R[6],R[5] xor BitPermute,R[4],R[3] xor r8buf

xor ecx,edi ;-> SBIn = R[6] xor kb[i] для след цикла

dec esi

jnz @B

bswap eax

С учетом перекрытия циклов на AMD64 вроде как должно быть ~7 тиков на оборот или ~400 тиков на полную обработку 8 байт (~1мкс на частоте ~2.5ГГц)

PS: в таком варианте предвыборка kb[i-1] читает один лишний байт, поэтому kb не должно стоять в начале секции

andy_biiig · 22 фев 2006

leo

8 блоков обрабатывается примерно так

Rnew[0] = r1[0] | (r2[0] <<8) | (r3[0] <<16) ...

...

Rnew[7] = r1[7] | (r2[7] <<8) | (r3[7] <<16) ...

Где r1, r2 и т.д. это оригинальные байтовые блоки, а Rnew - 64 разрядный "суперблок", который потом и обрабатывается

Поэтому и по таблице транслируются 8 байт из всех разрядов mmx, и в асмовых процедурах операции производятся целиком над mmx.

----------

После разворачивания приведенного цикла и упрощения алогритм стал выглядеть примерно вот так

Код (Text):

// 1

sbin = kb[55] ^ ib[6];

r[7] ^= tXlat[sbin];

r[5] ^= BitPermute[sbin];

r[3] ^= r[7]; r[2] ^= r[7]; r[1] ^= r[7];

// 2

sbin = kb[54] ^ ib[5];

r[6] ^= tXlat[sbin];

r[4] ^= BitPermute[sbin];

r[2] ^= r[6]; r[1] ^= r[6]; r[0] ^= r[6];

// 3

sbin = kb[53] ^ ib[4];

r[5] ^= tXlat[sbin];

r[3] ^= BitPermute[sbin];

r[1] ^= r[5]; r[0] ^= r[5]; r[7] ^= r[5];

// всего 56 раз

Именно этот код и послужил прообразом для ASM-варианта

Код (Text):

;// 2

sbin = kb[54] ^ ib[5];

; слегка пропущено

r[6] ^= tXlat[sbin];

movq SBIn, mm0

call _dotablexlat

movq mm7, SBOut

movq mm0, BC1Out6

pxor mm0, mm7

movq BC1Out6, mm0

r[2] ^= r[6];

movq mm1, mm2 - с предыдущей итерации

pxor mm1, mm0

movq BC1Out2, mm1 - сохраняется

r[1] ^= r[6];

movq mm2, mm3 - с предыдущей итерации

pxor mm2, mm0

- остается в регистре mm2 до следующей итерации

r[0] ^= r[6];

movq mm3, BC1Out0

pxor mm3, mm0

- остается в регистре mm3 до следующей итерации

r[4] ^= BitPermute[sbin];

call _do???????

movq mm1, BC1Out4

pxor mm1, mm7

movq BC1Out4, mm1

--- А это уже следующая итерация

// 3

sbin = kb[53] ^ ib[4];

movq mm0, KB+53*8

pxor mm0, mm1

movq SBIn, mm0

call _dotablexlat

Войти или зарегистрироваться

преобразование таблиц - оптимизация по скорости

andy_biiig New Member

leo Active Member

andy_biiig New Member

leo Active Member

bogrus Active Member

andy_biiig New Member

leo Active Member

S_T_A_S_ New Member

andy_biiig New Member

S_T_A_S_ New Member

leo Active Member

andy_biiig New Member

leo Active Member

andy_biiig New Member

leo Active Member

andy_biiig New Member

andy_biiig New Member

andy_biiig New Member

leo Active Member

andy_biiig New Member

Войти или зарегистрироваться

преобразование таблиц - оптимизация по скорости

andy_biiig New Member

leo Active Member

andy_biiig New Member

leo Active Member

bogrus Active Member

andy_biiig New Member

leo Active Member

S_T_A_S_ New Member

andy_biiig New Member

S_T_A_S_ New Member

leo Active Member

andy_biiig New Member

leo Active Member

andy_biiig New Member

leo Active Member

andy_biiig New Member

andy_biiig New Member

andy_biiig New Member

leo Active Member

andy_biiig New Member

Быстрый поиск