Задачка 2^n => n (без BSF/BSR, переходов и таблиц)

Black_mirror · 25 ноя 2011

В регистре разрядностью N(можно решать задачу для некоторого конкретного N) имеется число вида 2^n (с одним единичным разрядом). Нужно построить функцию, которая(без BSF/BSR, переходов и таблиц) вычислит номер единичного бита. Или хотя бы взаимооднозначно отобразит множество чисел вида 2^n во множество чисел 0 .. (N-1). В последнем случае нужно построить и обратную функцию.
Например, пусть для N=8, нам удалось построить такую функцию:

Код (Text):

00000001 -> 000 0

00000010 -> 001 1

00000100 -> 010 2

00001000 -> 101 3

00010000 -> 011 4

00100000 -> 111 5

01000000 -> 110 6

10000000 -> 100 7

Теперь нужно либо построить функцию которая из второго столбца получит первый, либо получит из него третий столбец(тогда построение обратной функции будет уже тривиальным).

leo · 25 ноя 2011

На ум лезет подсчет кол-ва единиц в числе x-1 через умножения на магик-намберы...
Хотя для небольших N, это м.б. и не лучший способ

leo · 25 ноя 2011

Для одной тетрады можно по битовой табличке MagicNumber сделать:
x4 = (MagicNumber >> y4*3) & 7; //MagicNumber = 0x3002044

DEEP · 25 ноя 2011

//del
(пересмотрел алгоритм Копперсмита и понял, что он содержит в себе циклы)

l_inc · 25 ноя 2011

DEEP
Смешно. Хотел придумать ещё больший overkill для наглядности, но Ваш вариант переплюнуть не смог. В пределах двадцати байт и двадцати тактов x86 этот алгоритм реализуете? Потому что первая половина задания реализуется где-то в таких пределах, если не меньше.

DEEP · 25 ноя 2011

l_inc
Ну вообще-то я говорил серьёзно, подумав о на самом деле произвольном N.
А теперь вот всю ночь не усну — буду думать, как вообще возможно аппроксимировать логарифм с приемлемой экстраполяцией (т.к. ТС явно указывает на неограниченность N) на фиксированных двадцати тактах ЦП, без циклов.

l_inc · 25 ноя 2011

DEEP
Ваш вариант в любом случае — перебор. Кроме того:

Black_mirror сказал(а):

можно решать задачу для некоторого конкретного N
Нажмите, чтобы раскрыть...

Но могу уточнить вопрос: "В пределах двадцати байт и двадцати тактов x86 для N=32 этот алгоритм реализуете?"
Рассчитываете, что теперь уснёте раньше?

s_d_f · 25 ноя 2011

А почему без BSF/BSR, переходов и таблиц?

Код (Text):

cnt_shl=1

mov edx,-1 ; -1 останется если в eax не 2^n

xor ecx,ecx

N=32

REPEAT N

cmp eax,cnt_shl

cnt_shl=cnt_shl shl 1

cmovz edx,ecx

inc ecx

ENDM

DEEP · 25 ноя 2011

l_inc
Ладно, тогда ещё одна идея на сон грядущий, уже из области дискры, а не матана.

Рассмотрим биты регистра. Модифицируем таблицу из поста [1], и обозначим её за T:

Код (Text):

00000001 -> 000

00000010 -> 001

00000100 -> 010

00001000 -> 011

00010000 -> 100

00100000 -> 101

01000000 -> 110

10000000 -> 111

Составим новую таблицу T` в log2(N) строк, где справа в i-й строке будет взведён i-й бит, а слева будет битовая маска, составленная OR`ом из всех левых частей таблицы T, для которых в правой части T этот бит взведён.
Так, для T из поста [0], имеем T`:

Код (Text):

10101010 -> 001

11001100 -> 010

11110000 -> 100

В итоге, мы можем построить функцию из [1] за логарифмическое время.

Так, для N=8, задача решается за 8 тактов:

Код (Text):

TEST AL, 11110000b;

SETNE CL;

TEST AL, 11001100b;

SETNE BL;

TEST AL, 10101010b;

SETNE AL;

LEA EAX, [EAX + ECX*4];

LEA EAX, [EAX + EBX*2];

[UPD #1:]
Ах да, на всякий случай поясню принцип действия.
Всё что мы делаем — это набираем номер искомого бита поразрядно.
Если

(i-тая маска) AND (исходное число) != 0
Нажмите, чтобы раскрыть...

то это значит, что в номере взведён i-тый разряд.

[UPD #2:]
Код для N=32 (вход — EAX, выход — ECX):

Код (Text):

XOR EDX, EDX;

TEST EAX, 11111111111111110000000000000000b;

SETNE DL;

MOV ECX, EDX;

TEST EAX, 11111111000000001111111100000000b;

SETNE DL;

LEA ECX, [ECX*2 + EDX];

TEST EAX, 11110000111100001111000011110000b;

SETNE DL;

LEA ECX, [ECX*2 + EDX];

TEST EAX, 11001100110011001100110011001100b;

SETNE DL;

LEA ECX, [ECX*2 + EDX];

TEST EAX, 10101010101010101010101010101010b;

SETNE DL;

LEA ECX, [ECX*2 + EDX];

Итого — 16 тактов.

l_inc · 25 ноя 2011

DEEP
Это всё уже было. Самый быстрый вариант такой. С табличкой в n байт. Теперь табличка почему-то не допускается, но без неё среднюю колонку ни в правую не перевести ни в левую (из таблицы первого поста).

DEEP · 25 ноя 2011

l_inc
Ну вот, опять не ко двору.

Злые вы, уйду я от вас =)

leo · 25 ноя 2011

l_inc

Теперь табличка почему-то не допускается
Нажмите, чтобы раскрыть...

Но "квазитаблицу" <= 32 бит, наверное неразумно запрещать, т.к. она по сути не отличается от прочих "выкрутасов" с magic number'ами

l_inc · 25 ноя 2011

leo
Думаю, что "квазитаблицу" и не запрещали. Но, наверное, решение должно всё-таки как-то масштабироваться хотя бы на 32, а может и на 64 бита. Не выльются ли выкрутасы с квазитаблицей в выкрутасы с таблицей без значительных накладных?
DEEP

Злые вы, уйду я от вас =)
Нажмите, чтобы раскрыть...

Да ладно. Обещаю не критиковать дальнейшие предложения.

Black_mirror · 26 ноя 2011

Что касается получения из первого столбца второго(где числа уникальны, но не упорядочены), то там требуется всего две команды. А вот пример побитового восстановления первого столбца из второго(для 32 разрядов можно поступить аналогично, только магических чисел понадобится 5 и добавится еще 10 команд):

Код (Text):

10000000 <- 100

01000000 <- 110

00100000 <- 111

00010000 <- 011

00001000 <- 101

00000100 <- 010

00000010 <- 001

00000001 <- 000

eax - число от 0 до 7 из второго столбца

mov edx, not 11101000b

mov ecx, not 01110100b

mov ebx, not 00111010b

shr eax,1

sbb esi,esi

xor ebx,esi

shr eax,1

sbb esi,esi

xor ecx,esi

neg eax

xor eax,edx

and eax,ebx

and eax,ecx

Maratyszcza · 26 ноя 2011

Код (Text):

; Ktobyvydumali?

magic_rabbit dq 4340000000000000h, 4340000000000000h

movd xmm0, eax

orpd xmm0, [magic_rabbit]

subsd xmm0, [magic_rabbit]

pextrw eax, xmm0, 3

shr eax, 4

sub eax, 400h

leo · 27 ноя 2011

l_inc

Но, наверное, решение должно всё-таки как-то масштабироваться хотя бы на 32, а может и на 64 бита. Не выльются ли выкрутасы с квазитаблицей в выкрутасы с таблицей без значительных накладных?
Нажмите, чтобы раскрыть...

Не выльются, т.к. идея с квазитаблицей заключается не в том, чтобы применять ее к каждой тетраде, а в том, чтобы свести задачку к поиску нужной тетрады - а эта задачка элементарно решается методом умножения. Например, для 32 бит:

Код (Text):

;eax - вх.число

lea ecx,[eax*2-1] ;преобразуем 0100..0 в 0111..1

and ecx,11111111h ;выдяляем младшие биты каждой тетрады

imul ecx,11111111h ;суммируем эти биты

shr ecx,28 ;получаем кол-во тетрад, включая искомую

lea ecx,[ecx*4-4] ;число бит до тетрады с установленным битом

mov edx,ecx

shr eax,ecx ;выделяем тетраду

lea ecx,[eax+eax*2] ;индекс таблицы

mov eax,0x3002044 ;таблица

shr eax,ecx

and eax,7 ;номер бита в тераде

add eax,edx ;номер бита в дворде

l_inc · 27 ноя 2011

leo
Ну что сказать. Это... круто.

Black_mirror · 27 ноя 2011

leo
Можно несколько улучшить, если вычислять номер бита в байте:

Код (Text):

imul ecx,eax,17171717h

shr ecx,29; 2^n -> 0 1 2 5 3 7 6 4 0 1 2 5 3 7 6 4 0 1 2 5 3 7 6 4 0 1 2 5 3 7 6 4

lea ecx, [101 110 011 111 100 010 001 000 0001000b + ecx*3];таблица перестановки + вычисление сдвига

shr ecx,cl

and ecx,7;теперь числа в правильном порядке

lea eax,[eax*2-1]

and eax,01010101h

imul eax,01010101h

shr eax,24

lea eax,[eax*8-8+ecx]

Небольшая оптимизация второй части:

Код (Text):

shr eax,cl

imul eax,00081018h

shr eax,24

add eax,ecx

leo · 28 ноя 2011

Black_mirror
Первая идея с использованием imul для независимого вычисления смещения внутри байта\тетрады - это круто, но "оптимизация второй части" опять вносит зависимость и тем самым снижает ценность первой. Поэтому лучше обе части оставить независимыми и вернуться к тетрадам, т.к. это позволит еще больше упростить первую часть и вообще отказаться от таблицы:

Код (Text):

;eax - вх.число, не равное 0

lea ecx,[eax*2-1] ;преобразуем 0100..0 в 0111..1

imul eax,11111111h ;загоняем искомую тетраду вверх в 28-31 биты

and ecx,11111111h ;выдяляем младшие биты каждой тетрады

imul ecx,11111111h ;суммируем эти биты

cdq ;edx=-1 для тетрады 1000b, иначе =0

shr eax,29 ;= 0,1,2,4

shr ecx,28 ;кол-во тетрад, включая искомую

add eax,edx ;= 0,1,2,3

lea eax,[eax+ecx*4-4] ;искомый номер бита

В итоге обе части должны выполняться паралельно и общее время будет определяться задержкой вычисления номера тетрады

Proteus · 28 ноя 2011

del

Войти или зарегистрироваться

Задачка 2^n => n (без BSF/BSR, переходов и таблиц)

Black_mirror Active Member

leo Active Member

leo Active Member

DEEP Андрей

l_inc New Member

DEEP Андрей

l_inc New Member

s_d_f New Member

DEEP Андрей

l_inc New Member

DEEP Андрей

leo Active Member

l_inc New Member

Black_mirror Active Member

Maratyszcza New Member

leo Active Member

l_inc New Member

Black_mirror Active Member

leo Active Member

Proteus Member

Войти или зарегистрироваться

Задачка 2^n => n (без BSF/BSR, переходов и таблиц)

Black_mirror Active Member

leo Active Member

leo Active Member

DEEP Андрей

l_inc New Member

DEEP Андрей

l_inc New Member

s_d_f New Member

DEEP Андрей

l_inc New Member

DEEP Андрей

leo Active Member

l_inc New Member

Black_mirror Active Member

Maratyszcza New Member

leo Active Member

l_inc New Member

Black_mirror Active Member

leo Active Member

Proteus Member

Быстрый поиск