Возведение числа в степень... (возможные варианты и их улучшение)

UbIvItS · 19 апр 2007

Вот убей) - не понимаю зачем читать е с конца, а насчет кол-ва циклов если уж нужно, то да их можно на 1-цу уменьшить, а в конце функи написать.

Код (Text):

v*=v;

return res*v;

CreatorCray · 20 апр 2007

2UbIvItS
>> Вот убей) - не понимаю
Ну, раз до сих пор не понял то я тебе объяснить видимо не смогу.

>> зачем читать е с конца
Есть такое слово - оптимизация.

>> насчет кол-ва циклов если уж нужно
Нужно разумеется. Зачем выполнять совершенно лишнюю работу?

Код (Text):

v*=v; <-- это лишнее, оно и так у тя вычислится в конце цикла. А если циклов - 0 то вычислять и не надо :))

return res*v;

Ты уж звиняй, но у меня сложилось впечатление что у тебя с математикой траблы, да и с логикой не ахти.

UbIvItS · 20 апр 2007

Вот канонический вид:

Код (Text):

int pow (int v, int e)

{

if(e==0) return 1;

if(e==1) return v;

int res = 1;

int loop = _bit_scan_reverse (e);

for(int i=0; i<loop; i++)

{

if (e & (1<<i))

res *= v;

v *= v;

}

return res * v;

}

теперь давай посмотрим A^14 на твоем алгосе: binary(14)= 1110
//1
res=v // вот уже неправильно

UbIvItS · 20 апр 2007

Ты уж звиняй, но у меня сложилось впечатление что у тебя с математикой траблы, да и с логикой не ахти.
Нажмите, чтобы раскрыть...

Да, я не идеален, а ты покажи идеальных))

P. S

Понял)) что ж не плохо), но мой вариант для меня как - то более привычней), хотя на одну переменную он проигрывает

CreatorCray · 20 апр 2007

UbIvItS
>> теперь давай посмотрим A^14 на твоем алгосе: binary(14)= 1110
Давай:

Код (Text):

loop = 3;// 1110

res = v;

// res = v = v^1

// 1

res *= res;

if (e & (1<<2)) res *= v;

// res = (v ^ 2) * v = v^3

// 2

res *= res;

if (e & (1<<1)) res *= v;

// res = ((v ^ 3) ^ 2) * v = v^7

// 3

res *= res;

if (e & (1<<0)) res *= v;

// res = (v ^ 7) ^ 2 = v^14

>> res=v // вот уже неправильно
Ёмкое заявление...
Что именно неправильно? :rolleyes:

>> Да, я не идеален, а ты покажи идеальных
Не в идеале дело, просто ты спешишь делать выводы либо не подумав и не проанализировав код, либо плохо это сделав.

>> Понял
Ну и слава Б-г.

UbIvItS · 20 апр 2007

Вообще, по-своему скромному опыту замечу, что есть много людей, кои не понимают мои алгосы с первого и даже с n -го раза, но я не спешу их обвинять в бездарности)) - у каждого башка забита чем - то своим и быстро в ехать в суть не всегда выходит.

leo · 20 апр 2007

Ну что, горячие финские парни, выговорились
Начнем с того, что код UbIvItS, вовсе не "канонический" и никакого _bit_scan_reverse тут делать не нужно. Канонический вид выглядит примерно так

Код (Text):

int pow (int v, int e)

{

int res = 1;

while (e)

{

if (e & 1)

res *= v;

v *= v;

e = e >> 1;

}

return res;

}

Во-вторых, утверждения CreatorCray о премуществах его варианта являются чисто теоретическими из области абстрактной сложности алгоритмов - раз на одну операцию меньше значит быстрее. На самом деле это не так. Во-первых, _bit_scan_reverse реализуется инструкцией bsr, которая почти на всех процессорах (кроме первых P4) выполняется дольше умножения, а в AMD64 намного дольше. Во-вторых, в "каноническом" алгоритме умножения res*=v и v*=v являются независимыми и могут выполняться с перекрытием на 1 такт. В варианте CreatorCray все умножения зависимы и могут выполняться только последовательно, а латентность целочисленного умножения составляет 3-4-10-14 тактов в зависимости о проца

UbIvItS · 20 апр 2007

leo, реально красиво - ты меня смог удивить - снимаю шляпу, спасибо.

CreatorCray · 21 апр 2007

leo
Мой алго писался для больших чисел. Где умножение - дорогая операция, сдвиг - дешевле, но тоже дорог, а BSR операция дешева.

Затем, сравнение скорости алгоримов (компилено ICC 9.1 /QxP)
функции pow обявлены как __declspec (noinline)
возводим 2 ^ 31. По асм коду - все честно, без инлайнинга и замены mul->shr.
Честный цикл каждой функции - 0xffffffff раз.
тики на весь цикл:
2168466797
2167000479

разница небольшая.

+ ICC скомпилил примерно вот во что:

Код (Text):

PUBLIC ?pow2$@@YAHHH@Z

mov eax, DWORD PTR [esp+4]

mov edx, DWORD PTR [esp+8]

sub esp, 8

$LN42:

;;; int res = 1;

;;; while (e)

test edx, edx

je $B2$6 ; Prob 10%

; LOE eax edx ebx ebp esi edi

$B2$2: ; Preds $B2$1

mov DWORD PTR [esp+4], ebx

mov DWORD PTR [esp], esi

mov ecx, 1

; LOE eax edx ecx ebp edi

$B2$3:; Preds $B2$3 $B2$2

$LN43:

;;; {

;;; if (e & 1)

mov ebx, edx

and ebx, 1

$LN44:

;;; res *= v;

mov esi, eax

imul esi, ecx

$LN45:

;;; v *= v;

imul eax, eax

$LN46:

cmp ebx, 0

cmovne ecx, esi

$LN47:

;;; e = e >> 1;

sar edx, 1

$LN48:

test edx, edx

jne $B2$3 ; Prob 82%

; LOE eax edx ecx ebp edi

$B2$4: ; Preds $B2$3

mov ebx, DWORD PTR [esp+4]

mov esi, DWORD PTR [esp]

; LOE ecx ebx ebp esi edi

$B2$5: ; Preds $B2$4 $B2$6

$LN49:

;;; }

;;; return res;

mov eax, ecx

add esp, 8

ret

; LOE

$B2$6: ; Preds $B2$1 ; Infreq

mov ecx, 1

jmp $B2$5; Prob 100%

т.е. умножение выполняется вообще всегда, установлен бит или нет.
В связи с этим вопрос: что "дороже" conditional jump или imul?
как замечено, ICC всеми силами старается избавляться от conditional переходов.

UbIvItS · 21 апр 2007

кстати, сравни свой алгос с либой GMP - весьма любопытно, но факт однозначен bsr не нужен)

leo · 21 апр 2007

CreatorCray
Мда, хотел я на простом примере отделаться, а с этими cmov пришлось целое исследование замутить. Пол дня убил фиг знает на что

Во-первых, о методике измерений. Гонять такие суперциклы с переключением контекстов само по себе не есть гуд - достаточно по rdtsc замерить 100 или 1000 повторов. К тому же в цикле суммарная задержка получается меньше за счет частичного перекрытия итераций, поэтому для более объективной оценки нужно вводить ложную зависимость итераций, например так

Код (Text):

xor eax,eax

@@:

and eax,0 ;<-- ждет завершения предыдущей итерации

add eax,2

stdcall intpow,eax,31

sub ecx,1

jnz @B

Чтобы не мешать все в кучу, для начала подтверждаем тезис о том что независимые imul в стандартном методе выполняются быстрее, чем зависимые в реверс-методе. Используем обычные методы с jcc при постоянном значении e=31 для всех проходов цикла - все jcc отдыхают и штрафов нет. Из таблицы видно, что в этом сл.стандартный метод работает заметно быстрее и тем быстрее, чем больше латентность imul - самая большая разница получается на P4, самая маленькая на AMD64.
Без особого удовольствия переходим к квазислучайным значениям e . Взял для примера e=((i*23) mod 32) or 16 при i=100..1, чтобы число сканируемых бит всегда было одинаково и = 5. С реверсом уже не связываемся, смотрим как себя ведет стандартный метод.
Видим, что рез-ты ес-но ухудшаются и степень ухудшения коррелирует с соотношением латентности imul и штрафа за непредсказанный переход (минимум для P4, максимум для PM и AMD64).
Ясно, что jcc "дороже", чем imul. Но чтобы вовсе избавится от jcc и "всегда выполнять умножение" нужно ввести доп.операции для коррекции результата по условию, а эти операции даются не бесплатно. Проверяем несколько измененный вариант ICC с cmov и получаем для всех процев кроме P4 вполне предсказуемые результаты. В AMD64 и PM латентность cmov мала и соотв-но рез-т получается значительно лучше чем со случайными jcc и несколько хуже чем с предсказуемыми jcc. В P4E латенность cmov очень большая и соответсвенно выигрыш не значителен. А вот загадочный P4 Northwood и вовсе с cmov работает хуже (также как и c setcc,adc,sbb и т.п), поэтому специально для него и его старшего братца P4Е пытаемся заменить cmov на кучку простых ALU-операций. И после некого шаманства (о чудо !) получаем для них "выдающиеся" результаты, хотя нормальные "простые" камни AMD и PM такого изврата ес-но не понимают )
"Вот такие времена..." (С) ВВП

Код (Text):

Проц PM P4 P4E AMD64

-------------------------------------

imul r,r 4 14 10 3 ;латентность imul

cmovcc r,r 2 6 ~9 1 ;латентность cmovcc

штраф jcc ~12 ~20 ~30 ~12 ;штраф за непредсказанный переход

===================================== ;тики на цикл из 100 повторений при e=const=31

реверс_jcc 4277 17356 8798 4415 ;<- метод обратного сканирования res*=res + res*=d

стд_jcc 3545 11204 6112 4012 ;<- стандартный метод

разница % 20.6 54.9 43.9 10.0

===================================== ;тики на цикл из 100 повторений e=((i*23) and 31) or 16

стд_jcc 6984 13336 10980 7453 ;<- стандартный метод с jcc

стд_cmov 4567 15052 10620 4113 ;<- с заменой jcc на cmov

стд_АЛУ 5673 9080 7320 4913 ;<- с заменой jcc на "кучку" АЛУ-операций

-------------------------------------

PM - Pentium M, 1.2 ГГц, cpuid=6.11.1

P4 - P4 Northwood, 3.2 ГГц, cpuid=15.2.9 (HT Disabled !!!)

P4E - P4 Prescott, 3.0 ГГц, cpuid=15.4.3 (HT Disabled !!!)

AMD64 - Athlon 64 3200+, 2.0 ГГц, cpuid=15.95.2

Исходник на фасме

crypto · 21 апр 2007

leo
Оффтоп
Простите, когда мы увидим Ваши книги? Или они существуют, но я об этом не знаю?

CreatorCray · 22 апр 2007

leo
>> Мда, хотел я на простом примере отделаться, а с этими cmov пришлось целое исследование замутить. Пол дня убил фиг знает на что
Сорри ) Исследование на самом деле весьма полезное. Так что убил не зря...

Для чисел, которые влазят в регистры проца - да, зависимость умножения хавает все преимущество. Для длинной математики - наоборот.

UbIvItS
>> сравни свой алгос с либой GMP
Не получится - там аналогичный pow только для modular.
Впрочем попробую завтра.

Но bsr и правда не нужен согласен. Я ж алго этот притянул из своей библы - там можно возводить в любую целую положительную степень. Т.е. ни в один регистр проца экспонента не влазит. И shr для нее - дорого. Единственный выход: пробежка по битам, для которой требуется аналог bsr для длинной математики.

CreatorCray · 22 апр 2007

>> сравни свой алгос с либой GMP
Выдалась свободная минутка - сравнил свой BigNumber::FromPowMod с mpz_powm:

PQ: 2048 bits
E: 1024 bits
C: 2047 bits
Calc C^E mod PQ 10 times

CrayLib: 2'146'531'499 GMPlib:3'123'842'582
CrayLib: 2'137'400'307 GMPlib:3'120'901'616
CrayLib: 2'139'798'255 GMPlib:3'131'840'915
CrayLib: 2'169'511'477 GMPlib:3'125'314'808
CrayLib: 2'106'887'118 GMPlib:3'123'073'562
CrayLib: 2'138'860'171 GMPlib:3'126'922'036
CrayLib: 2'138'859'919 GMPlib:3'120'729'703
CrayLib: 2'142'073'234 GMPlib:3'122'312'011
CrayLib: 2'150'983'548 GMPlib:3'120'357'856
CrayLib: 2'135'323'995 GMPlib:3'123'322'615
CrayLib: 2'106'376'195 GMPlib:3'149'886'404
CrayLib: 2'114'445'025 GMPlib:3'120'187'259
CrayLib: 2'141'562'143 GMPlib:3'121'564'446
CrayLib: 2'143'012'480 GMPlib:3'126'103'904
CrayLib: 2'138'393'789 GMPlib:3'121'483'428
CrayLib: 2'136'342'313 GMPlib:3'124'708'006
CrayLib: 2'147'042'940 GMPlib:3'120'976'908
CrayLib: 2'106'516'391 GMPlib:3'145'499'945
CrayLib: 2'105'171'754 GMPlib:3'128'900'719
CrayLib: 2'138'518'669 GMPlib:3'123'461'978

CrayLib: 2'105'171'754
GMPlib : 3'120'187'259
Нажмите, чтобы раскрыть...

Всё как положено: REALTIME_PRIORITY_CLASS + THREAD_PRIORITY_TIME_CRITICAL + affinity жестко на 2-е ядро
20 раз по 10 вызовов - в конце минимальное время. PQ - произведение простых. E - экспонента RSA для PQ. C - random

Сравнивать BigNumber::FromPow пока не с чем - нет в GMP функции которая экспоненту бы принимала как mpz_t а не как int

UbIvItS · 22 апр 2007

Но bsr и правда не нужен согласен. Я ж алго этот притянул из своей библы - там можно возводить в любую целую положительную степень. Т.е. ни в один регистр проца экспонента не влазит. И shr для нее - дорого. Единственный выход: пробежка по битам, для которой требуется аналог bsr для длинной математики.
Нажмите, чтобы раскрыть...

да, это верно сдвигать здоровый массив веселое занятие)
кстати, у тебя какая gmp, а то в моей нет mpf фунок??

CreatorCray · 22 апр 2007

UbIvItS
gmp-4.2.1.tar.bz2 слит вчера с http://gmplib.org

UbIvItS · 22 апр 2007

там на скока знаю сырцы у меня траблы компилить их

CreatorCray · 22 апр 2007

ну, я .c файлики побросал в проект вижуаловский. Все, что потребовались при компиляции теста.
Впрочем можно в гугле поискать - есть уже готовые собранные lib + h под MSVC.

Я тут с GMP фигею. Хотя может это у меня с головой не в порядке...

Код (Text):

void mpz_nextprime (mpz_ptr p, mpz_srcptr t)

{

mpz_add_ui (p, t, 1L);

while (! mpz_probab_prime_p (p, 5))

mpz_add_ui (p, p, 1L); // почему +1? Четные числа ведь не могут быть простыми

}

UbIvItS · 22 апр 2007

у меня на msvc скомпилить не вышло - я готовый юзаю, но там нет плавающей точки

mpz_add_ui (p, t, 1L);
while (! mpz_probab_prime_p (p, 5))
mpz_add_ui (p, p, 1L); // почему +1? Четные числа ведь не могут быть простыми
}
Нажмите, чтобы раскрыть...

я эту функу не юзал, но первый раз вижу, чтоб на нее жаловались - настрокай гневную ноту в сапорт) хотя есть один четный прайм - 2
кстати, если не секрет, в какой области тебе длинная арифа нужна??

CreatorCray · 23 апр 2007

UbIvItS
Я не жалуюсь, мне просто интересно зачем тратить время на проверку четных чисел, которые по-любому делятся на 2 - т.е. не могут быть простыми по определению.

>> в какой области тебе длинная арифа
Да так, плюшками балуюсь... Криптография в основном.

Войти или зарегистрироваться

Возведение числа в степень... (возможные варианты и их улучшение)

UbIvItS Well-Known Member

CreatorCray Member

UbIvItS Well-Known Member

UbIvItS Well-Known Member

CreatorCray Member

UbIvItS Well-Known Member

leo Active Member

UbIvItS Well-Known Member

CreatorCray Member

UbIvItS Well-Known Member

leo Active Member

crypto Active Member

CreatorCray Member

CreatorCray Member

UbIvItS Well-Known Member

CreatorCray Member

UbIvItS Well-Known Member

CreatorCray Member

UbIvItS Well-Known Member

CreatorCray Member

Войти или зарегистрироваться

Возведение числа в степень... (возможные варианты и их улучшение)

UbIvItS Well-Known Member

CreatorCray Member

UbIvItS Well-Known Member

UbIvItS Well-Known Member

CreatorCray Member

UbIvItS Well-Known Member

leo Active Member

UbIvItS Well-Known Member

CreatorCray Member

UbIvItS Well-Known Member

leo Active Member

crypto Active Member

CreatorCray Member

CreatorCray Member

UbIvItS Well-Known Member

CreatorCray Member

UbIvItS Well-Known Member

CreatorCray Member

UbIvItS Well-Known Member

CreatorCray Member

Быстрый поиск