Друзья, насколько Ваши Асм-коды реально эффективны?

betrayer · 12 июл 2018

UbIvItS сказал(а): ↑

а на этом уасм х64 лабать можно?
Нажмите, чтобы раскрыть...

Там и х64 можно, и линупс, и что угодно. Гуглите jwasm/uasm, интересная весьма весчь.

Асм мб и быстрее Си после всех оптимизаций, но кто ими занимается в реальных проектах? Разве что времени много, можно заняться байто*бством. Такое и отлаживать сложнее в разы, и вообще. For fun, я игрался когда-то , но для реальных проектов, особенно если на заказ - проще Си. Хотя часто бесит особо "умный" компилятор.

Кстати, видели такой сайт ? https://godbolt.org/ Вывод дизасм-листинга разных компилеров (gcc, студия).

UbIvItS · 12 июл 2018

betrayer сказал(а): ↑

Кстати, видели такой сайт ? https://godbolt.org/ Вывод дизасм-листинга разных компилеров (gcc, студия).
Нажмите, чтобы раскрыть...

Спасибо, но уже видел.

betrayer сказал(а): ↑

Там и х64 можно, и линупс, и что угодно. Гуглите jwasm/uasm, интересная весьма весчь.
Нажмите, чтобы раскрыть...

опять Спасибо, но gcc мне вполне хватает == писать всё на Асме есмь лишняя мутотень (по мне), куда разумней использовать Асм-вставки в gcc.

betrayer сказал(а): ↑

Разве что времени много, можно заняться байто*бством
Нажмите, чтобы раскрыть...

для меня проганье == своеобразная развлекуха.. время от времени ей занимаюсь

betrayer сказал(а): ↑

Такое и отлаживать сложнее в разы, и вообще.
Нажмите, чтобы раскрыть...

да, обычно такие извраты не имеют практического выхлопа и тут даже не столько играет сложность отладки, сколько отсутствие портабельности.. получаемая скорость может даже зависеть от настроек конкретной машины.

betrayer сказал(а): ↑

проще Си. Хотя часто бесит особо "умный" компилятор.
Нажмите, чтобы раскрыть...

особо вумный компиль обычно от мокрых, а другие куда-более покладисты

Intro · 6 янв 2021

ХАХА таки я одолел MD5!
Версия 1.0 уступала С/C++ компиляции. Но затем в 1.01 я смог обогнать сишку, 8.18 такт/байт против 6.86 т/б.
Хотя конечно изначально С код не оптимизирован, у меня есть Сишный код который при должной оптимизации может и побыстрей моего. Но я его пока не проверял. Так что ассемблере можно всё что угодно делать. Я имею ввиду любые проекты, имею ввиду именно мой стиль высокоуровнего программирования. Я так считаю.

--- Сообщение объединено, 6 янв 2021 ---

Кстати. Автор исходников за основу что было взято. Copyright (C) 2002 Aladdin Enterprises. Peter Deutsch
Код у него реально не очень оптимальный. А во обще, там эти хэши довольно трудно оптимизируются.

UbIvItS · 6 янв 2021

Intro сказал(а): ↑

у меня есть Сишный код который при должной оптимизации может и побыстрей моего. Но я его пока не проверял. Так что ассемблере можно всё что угодно делать. Я имею ввиду любые проекты, имею ввиду именно мой стиль высокоуровнего программирования. Я так считаю.
Нажмите, чтобы раскрыть...

главный принцип оптимазы == надо смотреть сколько "мёртвого" кода на циклах имеется, то бишь, к примеру, часть кода в цикле работает один раз, а потом тупо тарабанится мильЁны развЪЪЪ впустую. кстати, на старых процах с этим даже лучше было, пч мертвячина отсекалась на блоках IF и получались холостые сравнения без запуска потрохов блока, а сейчас потроха иф-ов исполняются до проверки условия и проц постоянно тупо сбрасывает левые ветки

Entropy · 7 янв 2021

что бы перевернуть последовательность байт, на ассемблере может хватить всего лишь 1 команды

Код (ASM):

bswap eax

а вот на сишечки уже так не выйдет

Rel · 7 янв 2021

Entropy сказал(а): ↑

а вот на сишечки уже так не выйдет
Нажмите, чтобы раскрыть...

Не хочу тебя расстраивать, но __builtin_bswap32 и аналоги делают именно это.

Entropy · 7 янв 2021

Rel сказал(а): ↑

__builtin_bswap32
Нажмите, чтобы раскрыть...

не расстроил абсолютно,это же интринзик

Intro · 7 янв 2021

Занятно, но по ходу, такой мною не любимый АРМ, может легко уделать Атлон и все 686+. Именно в MD5!
А во обще, АРМ это хороший процессор, и я, извиняюсь что, я его ругал. Просто на нём надо уметь кодить, используя сильные стороны, и не используя слабые.

Код (ASM):

;//Раунд 1.

ROUND1 MACRO accum:req, const_b:req, const_c:req, const_d:req, k:req, s:req, Ti:req

;;accum = (accum + ((const_b & const_c) | (~const_b & const_d)) + data[k] + Ti) <<< s + const_b

mov ebp, const_b

mov edi, const_b

and ebp, const_c ;;=(const_b & const_c)

not edi

and edi, const_d ;;=(~const_b & const_d)

or edi, ebp ;;=((const_b & const_c) | (~const_b & const_d))

add accum, [esi][k*4]

lea accum, [accum+edi+Ti]

rol accum, s ;;=accum <<< s

add accum, const_b

EXITM <>

ENDM

Сколько этот код тактов на 686+ выдаёт? 7 тактов должен!
А если на ARM переделать?
У ARM нельзя загрузить константу в 32 бита, поэтому помещаем их в массив.
У ARM можно делать операции reg,reg,reg, этим и воспользуемся.

Код (ASM):

and r0, const_b, const_c ;;=(const_b & const_c)

bic r1, const_d, const_b ;;=(~const_b & const_d)

or r0, r0, r1;;=((const_b & const_c) | (~const_b & const_d))

add accum, [r8][k*4]

add accum, r0, [r9+i]

rol accum, accum, s ;;=accum <<< s

add accum, accum, const_b

Код очень грязный, но думаю мысль понятна!

UbIvItS · 8 янв 2021

Entropy сказал(а): ↑

а вот на сишечки уже так не выйдет
Нажмите, чтобы раскрыть...

главный бонус сишечки пролегает в портируемости кода + минимальный оверхед на рантайм + гибкая работа с памятью, а качество асм-кода на выходе от компиля зависит.

cddee3 · 8 янв 2021

Intro сказал(а): ↑

Код (ASM):

;//Раунд 1.

ROUND1 MACRO accum:req, const_b:req, const_c:req, const_d:req, k:req, s:req, Ti:req

;;accum = (accum + ((const_b & const_c) | (~const_b & const_d)) + data[k] + Ti) <<< s + const_b

mov ebp, const_b

mov edi, const_b

and ebp, const_c ;;=(const_b & const_c)

not edi

and edi, const_d ;;=(~const_b & const_d)

or edi, ebp ;;=((const_b & const_c) | (~const_b & const_d))

add accum, [esi][k*4]

lea accum, [accum+edi+Ti]

rol accum, s ;;=accum <<< s

add accum, const_b

EXITM <>

ENDM

Нажмите, чтобы раскрыть...

если хотите увеличить скорость данного кода:
- используйте инструкцию: ANDN вместо: mov, not, and
- в конце разбавьте зависимые инструкции: add, lea, rol, add инструкциями следующего раунда с другими регистрами

Intro · 9 янв 2021

Да ладно! ANDN Это из какого набора инструкция? У меня старый процессор! И сейчас х86-32!

--- Сообщение объединено, 9 янв 2021 ---

В современных процессорах ядро RISC и оно умеет в коде высматривать цепочку инструкции типа как в моём коде и преобразовывать в подобия ARM инструкций. Но у меня старый процессор Athlon II X4 640, у него ядро фактически от атлон хп.

--- Сообщение объединено, 9 янв 2021 ---

Это называется слияние инструкций, мой тоже может сливать некоторый, например cmp/j*, но более сложные варианты умеют сливать процы следующего поколения!

--- Сообщение объединено, 9 янв 2021 ---

Короче говоря, нет у меня такой инструкции.
https://wiki2.org/en/Bit_Manipulation_Instruction_Sets

Intro · 9 янв 2021

Переставил в макрофункции ROUND3 const_d и const_b, убрал зависимость в следующей функцией, в результате 6.36 тактов/байт, пожалуй это всё, на что способен атлон и все 686+. Дальше без слияния, поднять быстродействие уже не возможно. Но это возможно лишь, в следующих по поколению процессорах, например в райзенах.
АРМ может и быстрей, вероятно не меньше 5 т/б, причём не самый новый.

Intro · 10 янв 2021

Драка с компилятором С продолжается! На этот раз sha256!
Пока компилятор С от M$ выигрывает, со счётом 24.2 и 27.7 т/б. Но я чувствую, что я смогу, обыграть компилятор мелких!

Intro · 13 янв 2021

Сейчас набросал код для ARM Cortex для hash MD5.
Получилось 4 такта на байт, хотя арме надо ещё 2 команд на загрузку data[k] + Ti в регистры r2 и r3. Да, константы поместил в массив. А как ещё быстро загрузить 32 бита?
И это на суперскалярном ARM'е с макс 3 инструкции за такт. Новые кортексы могут как я говорил, по 5 инструкций делать.
Так же, нашёл данные, что процессор типа Skylake выполняет код на ассемблере за 4.94 такта/байт, автор кода Maxim Masiutin. Можно найти на гитхабе.
https://github.com/maximmasiutin/MD5_Transform-x64

--- Сообщение объединено, 13 янв 2021 ---

Ах да забыл.

Код (ASM):

;//Раунд 1. 4 tics

ROUND1 MACRO accum:req, const_b:req, const_c:req, const_d:req, k:req, s:req, i:req

;;accum = (accum + ((const_b & const_c) | (~const_b & const_d)) + data[k] + Ti) <<< s + const_b

ldr r2, [r9,#k] ;;=data[k]

ldr r3, [r10,#i] ;;=T[i]

and r0, const_b, const_c ;;=(const_b & const_c)

bic r1, const_d, const_b ;;=(const_d & ~const_b)

add r2, r3 ;;=(data[k] + T[i])

orr r0, r1 ;;=((const_b & const_c) | (~const_b & const_d))

add accum, r2 ;;=accum +(data[k] + T[i])

add accum, r0 ;;=accum + ((const_b & const_c) | (~const_b & const_d))

add accum, const_b, accum rol s ;;accum=const_b+accum <<< s

EXITM <>

ENDM

;//Раунд 2. 4 tics

ROUND2 MACRO accum:req, const_b:req, const_c:req, const_d:req, k:req, s:req, i:req

;;accum = (accum + ((const_b & const_d) | (const_c & ~const_d)) + data[k] + Ti) <<< s + const_b;

ldr r2, [r9,#k] ;;=data[k]

ldr r3, [r10,#i] ;;=T[i]

bic r1, const_c, const_d ;;=(const_c & ~const_d)

and r0, const_b, const_d ;;=(const_b & const_d)

add r2, r3 ;;=(data[k] + T[i])

orr r0, r1 ;;=((const_b & const_d) | (const_c & ~const_d))

add accum, r2 ;;=accum +(data[k] + T[i])

add accum, r0 ;;=accum + ((const_b & const_c) | (~const_b & const_d))

add accum, const_b, accum rol s ;;accum=const_b+accum <<< s

EXITM <>

ENDM

;//Раунд 3. 4 tics

ROUND3 MACRO accum:req, const_b:req, const_c:req, const_d:req, k:req, s:req, Ti:req

;;accum = (accum + (const_b ^ const_c ^ const_d) + data[k] + Ti) <<< s + const_b

ldr r2, [r9,#k] ;;=data[k]

ldr r3, [r10,#i] ;;=T[i]

eor r0, const_b, const_c

add r2, r3 ;;=(data[k] + T[i])

eor r0, const_d ;;=(const_b ^ const_c ^ const_d)

add accum, r2 ;;=accum +(data[k] + T[i])

add accum, r0 ;;=accum + (const_b ^ const_c ^ const_d)

add accum, const_b, accum rol s ;;accum=const_b+accum <<< s

EXITM <>

ENDM

;//Раунд 4. 4 tics

ROUND4 MACRO accum:req, const_b:req, const_c:req, const_d:req, k:req, s:req, Ti:req

;;accum = (accum + (const_c ^ (const_b | ~const_d)) + data[k] + Ti) <<< s + const_b

ldr r2, [r9,#k] ;;=data[k]

ldr r3, [r10,#i] ;;=T[i]

orn r0, const_b, const_d ;;=(const_d & ~const_b)

add r2, r3 ;;=(data[k] + T[i])

eor r0, const_c ;;=(const_c ^ (const_b | ~const_d))

add accum, r2 ;;=accum +(data[k] + T[i])

add accum, r0 ;;=accum +

add accum, const_b, accum rol s ;;accum=const_b+accum <<< s

EXITM <>

ENDM

Видно что код не совсем синтаксически верный. Но это можно подправить. Если кто не понял, каждый макрос вызывается 16 раз.

KPG · 13 янв 2021

На сайте http://govnokod.ru
есть примеры и как получается код на Си (..) компиляторах, в сравнении с его асм пониманием.

P.S. А, вообще, на http://rosettacode.org/wiki/Category:Programming_Languages есть решения и на ассемблерах.

Intro · 13 янв 2021

ARM процессор более совершенней чем x86. Hash'и же быстрей рассчитывает.
По думать только, ещё неделю назад я говорил об обратном.
НО х86 уверено проиграл АРМ32 бита.
Чооо слияние инструкций.......... аааааааааааааа.......... задрали, это просто читерствооооооооо х86
Так играть нельзя, ARM выиграл, и я вынужден это признать.

Intro · 14 янв 2021

Нашёл быстрый алгоритм SHA-256, но он какой странный.
https://habr.com/ru/sandbox/80821/
Хэш совсем другой, или это другая реализация совсем? Но скорость не реальная 2.7 т/б!, в десять раз быстрей чем у меня на асме.

cddee3 · 14 янв 2021

Intro сказал(а): ↑

ARM процессор более совершенней чем x86. Hash'и же быстрей рассчитывает.
По думать только, ещё неделю назад я говорил об обратном.
НО х86 уверено проиграл АРМ32 бита.
Чооо слияние инструкций.......... аааааааааааааа.......... задрали, это просто читерствооооооооо х86
Так играть нельзя, ARM выиграл, и я вынужден это признать.
Нажмите, чтобы раскрыть...

"нагнулся за копейкой, порвал на рубь"
на x86 есть AVX512 - сразу можно 16 хэшей (SHA1) считать за раз

Intro · 14 янв 2021

А вот у меня нет AVX512, и что? В тот же кортекс можно напихать подобных инструкций ускорителей.

Intro · 16 янв 2021

У меня остался всего один такт, чтобы выиграть.

Войти или зарегистрироваться

Друзья, насколько Ваши Асм-коды реально эффективны?

betrayer Guest

UbIvItS Well-Known Member

Intro Well-Known Member

Вложения:

2021-01-05_23-35-18.png

UbIvItS Well-Known Member

Entropy Member

Rel Well-Known Member

Entropy Member

Intro Well-Known Member

UbIvItS Well-Known Member

cddee3 Member

Intro Well-Known Member

Intro Well-Known Member

Вложения:

2021-01-09_16-33-27.png

Intro Well-Known Member

Вложения:

2021-01-10_20-41-29.png

Intro Well-Known Member

KPG Member

Intro Well-Known Member

Intro Well-Known Member

cddee3 Member

Intro Well-Known Member

Intro Well-Known Member

Войти или зарегистрироваться

Друзья, насколько Ваши Асм-коды реально эффективны?

betrayer Guest

UbIvItS Well-Known Member

Intro Well-Known Member

Вложения:

2021-01-05_23-35-18.png

UbIvItS Well-Known Member

Entropy Member

Rel Well-Known Member

Entropy Member

Intro Well-Known Member

UbIvItS Well-Known Member

cddee3 Member

Intro Well-Known Member

Intro Well-Known Member

Вложения:

2021-01-09_16-33-27.png

Intro Well-Known Member

Вложения:

2021-01-10_20-41-29.png

Intro Well-Known Member

KPG Member

Intro Well-Known Member

Intro Well-Known Member

cddee3 Member

Intro Well-Known Member

Intro Well-Known Member

Быстрый поиск