Непонятное поведение команды stos в unreal mode

Gelon · 10 май 2011

Нужно максимально быстро заполнить экран в unreal mode, используя линейный видеобуфер 1280х1024 @ 8.

если при заполнении использовать код типа,

Код (Text):

nxt:

mov gs:[edi],eax

add edi,4

dec ecx

jnz nxt

все работает отлично .... только медленно

значительно интереснее заменить весь этот код командой stos:

Код (Text):

rep stosd gs:[edi]

только вот в какой точке экрана начнется прорисовка - неизвестно, даже если использовать команду без префикса rep или с другой разрядностью операнда.

простой пример: нарисуем две идентичные точки, одну на другой, в левом верхнем углу двумя способами одновременно:

Код (Text):

mov gs:[edi],eax

stosd gs:[edi]

первая точка - там где и должна быть, вторая - ниже середины ...

если команды поменять местами - stos нарисует точку ниже середины, и увеличит edx на 4, при этом следующая команда mov будет рисовать неизвестно где

Вопрос: кто объяснит такое поведение команды

Привожу полный рабочий код:
может компилироваться как. com или быть записан в MGR

Код (Text):

.model tiny

.code

.startup

.586

; ---===Creating GDT===---

xor eax,eax

mov di,ax

stosd

stosd

dec ax

stosd

mov ax,9200h

stosw

mov ax,0cfh

stosw

mov al,0fh

stosw

mov ax,cs

shl eax,4

stosd

; ---===Load Shadow GS===---

db 66h,0fh,1,16h,16,0;LGDT ds[0010]

db 0fh,20h,0c0h ;mov eax, cr0

mov bx,8

inc ax

db 0fh,22h,0c0h ;mov cr0, eax

mov gs, bx

dec ax

db 0fh,22h,0c0h ;mov cr0, eax

; ---===Get VESA Info===---

mov ax,4f01h

mov cx,4107h

lea di,vmi

int 10h

; ---===Main Cycle===---

cyc:

mov ax,4f02h

mov bx,4107h

mov ecx,050000h

mov edi,dword ptr vmi+28h

int 10h

db 0fh,31h ;RDTSR eax

mov ebx,eax ;save in ebx

;============================Здесь=======================

mov gs:[edi],eax ;работает прекрасно

db 65h,66h,67h,0f3h,0abh ;(rep stosd ds:[edi]) ;работает непонятно

;=======================================================

db 0fh,31h ;RDTSR eax

sub eax,ebx ;считаем сколько прошло тактов

mov ecx,40000000h

p1:

db 67h

loop p1 ;Pause

; ---===Print Cycle Clount===---

mov hex,eax

mov ax,0b800h

mov es,ax

mov ax,3

int 10h

fild hex

fbstp bcd

lea si,bcd

mov di,1eh

nmb:

mov eax,737373h

cld

lodsb

ror ax,4

rol eax,4

ror ax,4

std

stosd

dec di

dec di

jnz nmb

mov ecx,40000000h

p2:

db 67h

loop p2 ;Pause#2

jmp cyc

hex dd ?

bcd dt ?

vmi db ?

end

команда ведет себя одинаково на всех проверенных мной платформах:
Аthlon64n nForce4SLI Radeon X700Pro
Аthlon64 nForce4 ATI Rage II
AthlonXP VIA KT133 nVidia Vanta
Celeron intel GMA 950
а также виртуалках:
VirtualBox, VMware, DosBox

Если есть предложения, как можно код улучшить / уменьшить / ускорить - буду рад выслушать

Ezrah · 10 май 2011

Gelon
Какой бы Вы префикс не приписывали к stosd [edi], использоваться будет es.

Gelon · 10 май 2011

Спасибо Ezrah, разобрался. Был сбит с толку одной из статей где говорится что доступ к линейному буферу можно достать только с нереалу. С реалу он также доступен)))

Ezrah - оперативно работаешь, даже в 4 ночи

SII · 10 май 2011

Если есть предложения, как можно код улучшить / уменьшить / ускорить - буду рад выслушать
Нажмите, чтобы раскрыть...

Возможно, удастся ускорить, используя SSE (писать не по 4 байта, а большими порциями).

Igor1024 · 10 май 2011

Или по DMA.

Mikl___ · 10 май 2011

Gelon
Агнер Фог и leo советуют заменять компактные, но медленные stos/lods/movs/scas/cmps на более быстрые аналоги с mov и cmp

Строковые инструкции без префикса повторения слишком медленны, и их следует заменить более простыми инструкциями. То же самое относится к LOOP на всех процессорах и к JECXZ на PPlain и PMMX.
REP MOVSD и REP STOSD довольно быстры, если число повторений не слишком мало. Всегда используйте версию DWORD, где это возможно, и убедитесь, что источник и приемник выравнены на 8.
Некоторые другие методы перемещения данных быстрее в определенных условиях. Подробнее смотрите главу 27.8.
Обратите внимание, что пока инструкция REP MOVS записывает слово в приемник, она считывает следующее слово из источника в том же такте. У вас может конфликт банков кэша, если биты 2-4 у этих двух адресов одни и те же. Другими словами, у вас будут неизбежные потери в один такт на итерацию, если ESI+(размер слова)-EDI кратно 32. Самый простой путь избежать конфликтов банков кэша - это использовать версию DWORD и выравнивать источник и приемник на 8. Никогда не используйте MOVSB или MOVSW в оптимизированном коде, даже в 16-ти битном.
REP MOVS и REP STOS могут выполняться очень быстро, если перемещать целую линию кэша за раз на PPro, PII и PIII:
источник и приемник должны быть выравнены на 8
должно быть задано направление вперед (очищен флаг направления)
счетчик (ECX) должен иметь значение равное или большее 64
разница между EDI и ESI должна быть численно больше или равна 32
При этих условиях количество мопов будет примерно равно 215+2*ECX для REP MOVSD и 185+1.5*ECX для REP STOSD, что дает примерную скорость в 5 байтов в такт для обоих инструкций, что в три раза больше, если какое-нибудь из вышеприведенных условий не будет соблюдено.
Версии этой инструкции для байтов и слов также выигравают от соблюдений данных условий, но они менее эффективны, чем версии для двойных слов.
REP STOSD оптимальна при тех же условиях, что и REP MOVSD
REP LOADS, REP SCAS и REP CMPS не оптимальны, и их можно заменить на циклы. Смотри пример 1.10, 2.8 и 2.9 для поиска альтернатив REPNE SCASB. REP CMPS может вызвать конфликт баноков кэша, если биты 2-4 одинаковы в ESI и EDI.
Нажмите, чтобы раскрыть...

Войти или зарегистрироваться

Непонятное поведение команды stos в unreal mode

Gelon New Member

Ezrah Member

Gelon New Member

SII Воин против дзена

Igor1024 Васил Троянов Боянов (Azis)

Mikl___ Супермодератор Команда форума

Войти или зарегистрироваться

Непонятное поведение команды stos в unreal mode

Gelon New Member

Ezrah Member

Gelon New Member

SII Воин против дзена

Igor1024 Васил Троянов Боянов (Azis)

Mikl___ Супермодератор Команда форума

Быстрый поиск