RDTSC, замеры производительности.

Pavia · Feb 9, 2009

cppasm
T7500 2.2ГГц 2 ядра
Цифры пляшут. Причем были отрицательные.
Видать потому что sleep не делаешь.
В среднем 15-25% на обоих файлах на ST встречается серии 35-40% . На MT тоже встечается 35-40% но реже и по одиночке.

P4 2.4 одноядерный 35% ровно.

Но у двуядерных процессоров ведь у каждого ядра свой кеш?
Click to expand...

Зависит от системы.

В смысле? От какой системы?
Click to expand...

Click to expand...

В том смысле что у разных процов по разному. Бывает и общий.

t00x · Feb 9, 2009

cppasm

speedcmp_st.exe
===============================
Performing ALGO speed test...
===============================
Execution time (fix) -> 109561905 clocks
Execution time (mmx) -> 107394315 clocks

1% speedup.

speedcmp_mt.exe
===============================
Performing ALGO speed test...
===============================
Execution time (fix) -> 105644730 clocks
Execution time (mmx) -> 108239565 clocks

-2% speedup.
Click to expand...

P4 D925

Y_Mur · Feb 9, 2009

AMD Turion(tm) 64 X2 Mobile Technology TL-58

speedcmp_mt
===============================
Performing ALGO speed test...
===============================
Execution time (fix) -> 71092569 clocks
Execution time (mmx) -> 64640253 clocks
9% speedup.

speedcmp_st
===============================
Performing ALGO speed test...
===============================
Execution time (fix) -> 71568571 clocks
Execution time (mmx) -> 64669347 clocks
9% speedup.

cppasm · Feb 10, 2009

Мда, как я вижу у Р4 действительно с MMX не сложилось, скорее всего с умножением.

Цифры пляшут. Причем были отрицательные.
Видать потому что sleep не делаешь.
Click to expand...

А зачем Sleep(0) делать?

MSDN:

Remarks
A thread affinity mask is a bit vector in which each bit represents a logical processor that a thread is allowed to run on. A thread affinity mask must be a subset of the process affinity mask for the containing process of a thread. A thread can only run on the processors its process can run on.

Setting an affinity mask for a process or thread can result in threads receiving less processor time, as the system is restricted from running the threads on certain processors. In most cases, it is better to let the system select an available processor.

If the new thread affinity mask does not specify the processor that is currently running the thread, the thread is rescheduled on one of the allowable processors.
Click to expand...

t00x · Feb 10, 2009

на двух C2D (мобильном и десктопе) те же ~20% в обоих случаях.

n0name · Feb 10, 2009

А зачем Sleep(0) делать?
Click to expand...

перепланирование произойдет не сразу, а по истечении кванта времени.

cppasm · Feb 10, 2009

перепланирование произойдет не сразу, а по истечении кванта времени.
Click to expand...

А где про это написано?
Я так понял из написанного на MSDN что поток после изменения affinity mask отдаётся планировщику на перепланирование.
Ну ради интереса выкладываю ещё вариант с Sleep(0).
У меня разницы нет практически никакой (что не удивительно - процессор одноядерный ).

Немного изменён формат вывода.

Code (Text):

===============================

Performing ALGO speed test...

===============================

Execution time (mmx) -> 66220968 clocks (+38%)

Execution time (fix) -> 105935319 clocks ( +0%)

В скобках процент прироста относительно максимального значения.
Интересно будут ли прыгать цифры как прыгали (у тех у кого это наблюдалось, например у Pavia).
Оставил только многопоточную версию в связи с тем что на процессорах без HyperThreading разницы нет, а с HyperThreading многопоточная лучше.
Видимо потоки выполняющиеся во втором виртуальном ядре на кэш негативно влияют.
Кэш то один для обоих виртуальных ядер.

Pavia · Feb 11, 2009

cppasm
C2D У меня всеравно скачит 20-30% в среднем 25% итого +5% нежели чем прошлая рализация.
Скачит именно цифра с fix. А MMX реализация постоянна.

Code (Text):

C:\Downloads\speedcmp_mt>speedcmp_mt.exe

===============================

Performing ALGO speed test...

===============================

Execution time (mmx) -> 46304071 clocks (+25%)

Execution time (fix) -> 61430930 clocks ( +0%)

C:\Downloads\speedcmp_mt>speedcmp_mt.exe

===============================

Performing ALGO speed test...

===============================

Execution time (mmx) -> 46596803 clocks (+27%)

Execution time (fix) -> 63467844 clocks ( +0%)

C:\Downloads\speedcmp_mt>speedcmp_mt.exe

===============================

Performing ALGO speed test...

===============================

Execution time (mmx) -> 46509177 clocks (+30%)

Execution time (fix) -> 65822328 clocks ( +0%)

Я вот что, думаю. Тут в теме разные архитектуры. Сразу видно какая архитектура насколько превосходит и в чем.

cppasm · Feb 15, 2009

Если кому интересно, добавление Sleep(0) после смены Affinity Mask во всех создаваемыех потоках решило проблему.
Т.е. и на Р4 с HyperThreading я получил по замерам ~25%.
Но почему-то это увеличило разгул значений на 1-2%...
Думаю ещё попробовать с одним потоком и Sleep(0) после смены Affinity Mask.
Похоже SetThreadAffinityMask() действительно поток сразу на перепланирование не отправляет, поток квант отрабатывает на том же процессоре/ядре на котором был.

t00x · Feb 15, 2009

на P4D разброс значений 3-4% (причём в разные стороны)).

asmfan · Feb 15, 2009

Если кому интересно, добавление Sleep(0)
Click to expand...

А можно так:

Code (Text):

.yield:

call [NtYieldExecution]

test al,al

jnz .yield

n0name · Feb 15, 2009

Если кому интересно, добавление Sleep(0) после смены Affinity Mask во всех создаваемыех потоках решило проблему.
Click to expand...

ты же писал что делал его? :\

Похоже SetThreadAffinityMask() действительно поток сразу на перепланирование не отправляет, поток квант отрабатывает на том же процессоре/ядре на котором был.
Click to expand...

так и есть.

cppasm · Feb 16, 2009

ты же писал что делал его? :\
Click to expand...

Делал. Тут в теме даже выложенный бинарь ведь есть.
Я тогда его просто на P4 с HT не проверил - не было возможности.
А на одноядерном без разницы - что со Sleep(0), что без.

Log in or Sign up

RDTSC, замеры производительности.

Pavia Well-Known Member

t00x New Member

Y_Mur Active Member

cppasm New Member

t00x New Member

n0name New Member

cppasm New Member

Pavia Well-Known Member

cppasm New Member

t00x New Member

asmfan New Member

n0name New Member

cppasm New Member

Log in or Sign up

RDTSC, замеры производительности.

Pavia Well-Known Member

t00x New Member

Y_Mur Active Member

cppasm New Member

t00x New Member

n0name New Member

cppasm New Member

Pavia Well-Known Member

cppasm New Member

t00x New Member

asmfan New Member

n0name New Member

cppasm New Member

Useful Searches