Команды сопроцессора

assch · 18 авг 2018

С помощью какой команды (или набором команд) сопроцессора
можно представить обычное число как число с плавающей точкой
например просто число - 436 (436)
программно представить как число с плавающей точкой - 436.0 (1138360320)
например это можно сделать вот так

Код (ASM):

.data

Real qword 0

.data?

Temp dword ?

.code

mov edx,436

cvtsi2sd xmm0,edx

addsd xmm0,Real[edx*8]

cvtsd2ss xmm0,xmm0

movss Temp,xmm0

в переменной (Temp) будет число - 1138360320 (436.0)
А можно например тоже самое сделать как нибудь попроще
Кто в теме подскажите пожалуйста

f13nd · 18 авг 2018

fild [nInteger]
fstp [nFloat]

assch · 18 авг 2018

Большое спасибо f13nd

assch · 18 авг 2018

Ради интереса f13nd что можно сказать по поводу скорости
Верхний многоходовый алгоритм я обнаружил когда смотрел один дизасемблированный код программы на C++
Интересно почему компилятор C++ сделал эту многоходовку вместо fild и fstp

Indy_ · 18 авг 2018

assch,

IA, V1(basic architecture), C.8: PROGRAMMING WITH THE X87 FPU

f13nd · 18 авг 2018

assch сказал(а): ↑

Интересно почему компилятор C++ сделал эту многоходовку вместо fild и fstp
Нажмите, чтобы раскрыть...

Это подсистема fpu, у тебя mmx. Почему компилятор что-то там выбрал - понятия не имею. По поводу скорости - если тебе не надо это делать пару миллионов раз в секунду, не забивай голову вообще.

assch · 18 авг 2018

Всем спасибо за участие

Mikl___ · 19 авг 2018

assch,
то же целочисленными командами, на скорую руку, с проверкой знака и нуля

Код (ASM):

mov eax,-436

or eax,eax

jz @f

cdq ; if eax < 0 then edx := -1 else edx := 0

xor eax,edx

sub eax,edx ; eax := |eax|

and edx,256 ; create sign bit

bsr ecx,eax

ror eax,cl

add eax,edx

lea eax,[eax+ecx+126]

rol eax,23;eax=0C3DA0000h=-436.0

@@: . . .

assch · 19 авг 2018

Спасибо всем за участие
Если кому интересно то меня интересовал один алгоритм на C++

Код (C):

UINT iTime = timeGetTime() % 1000;

FLOAT fAngle = iTime * ( 2.0f * D3DX_PI ) / 1000.0f;

в этом алгоритме меня заинтересовало как перевести
получившиеся число (timeGetTime() % 1000) в число с плавающей точкой
с вашей помощью оказалось что это можно сделать например так:

Код (ASM):

call timeGetTime

xor edx,edx

mov ecx,1000

div ecx

cvtsi2ss xmm0,edx

movd fAngle,xmm0

movss xmm0,r1 ; 2.0

mulss xmm0,r2 ; 3.141592653 - D3DX_PI

mulss xmm0,fAngle

divss xmm0,r3 ; 1000.0

movss fAngle,xmm0

или так:

Код (ASM):

call timeGetTime

xor edx,edx

mov ecx,1000

div ecx

mov fAngle,edx

fild fAngle

fstp fAngle

movss xmm0,r1 ; 2.0

mulss xmm0,r2 ; 3.141592653 = D3DX_PI

mulss xmm0,fAngle

divss xmm0,r3 ; 1000.0

movss fAngle,xmm0

ради интереса протестировал оба кода на скорость исполнения
то есть зациклил код определённое количество раз - (0FFFFFFFh)
первый код показал результат - 4711 (в милисекундах)
второй код показал результат - 5226 (в милисекундах)
оказалось что с (fild и fstp) код работает чуть чуть помедленнее
но этот алгоритм выстроен чисто в лоб
то есть строго соблюден порядок исполнения арифметических действий
если сделать оптимизацию например вместо
последнего деления - divss xmm0,r3 (1000.0)
сделать умножение - mulss xmm0,r3 (0.001)
что как выясняется для данного случая даёт один и тот же результат

Код (ASM):

call timeGetTime

xor edx,edx

mov ecx,1000

div ecx

cvtsi2ss xmm0,edx

movd fAngle,xmm0

movss xmm0,r1 ; 2.0

mulss xmm0,r2 ; 3.141592653 - D3DX_PI

mulss xmm0,fAngle

mulss xmm0,r3 ; 0.001

movss fAngle,xmm0

при тестировании на скорость исполнения
этот код показал результат - 4056 (в милисекундах)
не исключаю что можно и ещё по оптимизировать
но впадать в Перфекционизм это уже каждый решает сам
в зависимости от поставленной задачи

Indy_ · 20 авг 2018

assch,

Вы использовали правильный механизм тестов на профайл - использовали таймер низким разрешением и не линейный, но погрешность убрали длительным циклом, тогда само поведение таймера не имеет смысла.

Это чисто рациональный подход, лайкну даже. Но вот дальше следует не рациональное. Точнее нужно понимать как это устроено, иначе не решить. Блок математики, это любые компонетны NPX(fpu, sse etc) обрабатываются особым образом ядром. При первой встрече этих блоков(срабатывает ловушка) запускается выгрузка полного контекста задачи, на все эти блоки контекст один. Из за размера блока и проверок безопасности это очень тяжёлая по таймингу операция и профайл резко просядет. Но после первого обращения отменить выгрузку невозможно, в течении нескольких квантов контекст будет выгружаться полный. Полный конкретно значит fxsave. Иначе эти блоки ядро не использует.

Это значит что тот же алгоритм реализованный базовым набором(GRP), будет иметь на порядки более высокий тайминг. NPX блоки не следует трогать, если нет задачи по вычислению плавающей математики(синусы етц).

Войти или зарегистрироваться

Команды сопроцессора

assch Member

f13nd Well-Known Member

assch Member

assch Member

Indy_ Well-Known Member

f13nd Well-Known Member

assch Member

Mikl___ Супермодератор Команда форума

assch Member

Indy_ Well-Known Member

Войти или зарегистрироваться

Команды сопроцессора

assch Member

f13nd Well-Known Member

assch Member

assch Member

Indy_ Well-Known Member

f13nd Well-Known Member

assch Member

Mikl___ Супермодератор Команда форума

assch Member

Indy_ Well-Known Member

Быстрый поиск