Перемножить 4 32битных целых за раз

xRom2 · 5 дек 2011

Возможно ли перемножить 4 32битных целых за раз наплевав на возможное переполнение?

Mikl___ · 5 дек 2011

xRom2
Зачем плевать на переполнение? Команда pmuludq умножает младшие 32-разрядные целые числа 128-разрядных операндов SRC и DEST. Результатом умножения является 128-разрядное число. Операнд SRC может находиться в MMX/XMM-регистре или в 128-разрядной ячейке памяти; операнд DEST должен находиться в MMX/XMM-регистре. Операнд SRC имеет вид Хa₁Хa₀, операнд DEST -- Xb₁Xb₀, где Х --любое 32-разрядное число, результат равен a₁*b₁a₀*b₀. Одновременно умножив четыре 32-разрядных a₀, a₁, b₀, b₁ получаем 128-разрядный результат, у которого разряды с 127 по 64 содержат a₁*b₁, а число в разрядах с 63 по 0-ой равно a₀*b₀

xRom2 · 5 дек 2011

Mikl___ сказал(а):

xRom2
Зачем плевать на переполнение? Команда pmuludq умножает младшие 32-разрядные целые числа 128-разрядных операндов SRC и DEST.
Нажмите, чтобы раскрыть...

О, большое спасибо, я как-то про ссе и не подумал. Ща поищу мануал, дело я смотрю хорошее, скорости может прибавить изрядно. Тока его ж теперь придется проверять, а есль ли оно....

artkar · 5 дек 2011

Если 3 из них можно представить степенью 2 то перемножить можно очень быстро, быстрее даже стандартных команд умножения - mul, посто сдвигая влево на показатель степени.

valterg · 9 дек 2011

даже стандартных команд умножения - mul, посто сдвигая влево на показатель степени.
Нажмите, чтобы раскрыть...

Это было во времена 86-х процессоров и 286. На Пеньках умножение не медленнее чем сдвиг.

leo · 9 дек 2011

На Пеньках умножение не медленнее чем сдвиг
Нажмите, чтобы раскрыть...

В плане латентности (получения результата) конечно медленнее. Другое дело, что в современных камнях умножение полностью конвееризовано и соотв-но независимые друг от друга умножения могут выполняться с разницей в 1 такт (особенно imul без лишних регистровых пересылок)

Dmitry_Milk · 9 дек 2011

Может быть можно пересмотреть организацию данных так, чтоб параллельно выполнялись умножения из четырех разных групп чисел, используя PMULLD из SSE4?
Для еще большей оптимизации - выполнять умножения внутри каждой группы с частичным перекрытием, вместо A*B*C*D выполнять (A*B)*(C*D).

Войти или зарегистрироваться

Перемножить 4 32битных целых за раз

xRom2 New Member

Mikl___ Супермодератор Команда форума

xRom2 New Member

artkar New Member

valterg Active Member

leo Active Member

Dmitry_Milk Member

Войти или зарегистрироваться

Перемножить 4 32битных целых за раз

xRom2 New Member

Mikl___ Супермодератор Команда форума

xRom2 New Member

artkar New Member

valterg Active Member

leo Active Member

Dmitry_Milk Member

Быстрый поиск