DIV! Ryzen 3600X VS Xeon 5450

Intro · 31 июл 2023

Лазил тут по ютубу, и наткнулся на тест Питухон, Ассемблер, С. И там была простая программка по нахождению простых чисел в заданном диапазоне. Пример на ассемблере был на отвратительном АТиТ синтаксисе, переделал на UASM. Начал тестировать, сначала хеон 5450, потом дома свой райзан 3600х, а потом старый атлон 2 х4 640 3ГГц. И самый быстрый оказался... Хеон, потом райзен и аутсайдер атлон.
Входное значение 10000000, время.
Хеон 5450 3ГГц: 6000 мс*
Райзен 5 3600Х 3.8 ГГц буст 4.2-4.4 ГГц: 8104 мс
Атлон II х4 640 3ГГц: 24384 мс
Результат: 664579, кол. делений 1746210134
Вспоминаю по памяти тот ПК на работе, потом уточню.
В общем, не понял чего старый интыл так уделывает амд, причём относительно новые. Понятно в программе именно DIV занимает основное время выполнение.

--- Сообщение объединено, 31 июл 2023 ---

Вот скрины.

UbIvItS · 1 авг 2023

Intro сказал(а): ↑

Пример на ассемблере был на отвратительном АТиТ
Нажмите, чтобы раскрыть...

млин, чем он отвратителен? ))

Intro сказал(а): ↑

В общем, не понял чего старый интыл так уделывает амд, причём относительно новые. Понятно в программе именно DIV занимает основное время выполнение.
Нажмите, чтобы раскрыть...

значит параллелит функцию.

Intro · 1 авг 2023

Вот скрин 5450. Частота меньше чем у рязани, а скорость быстрей, значит деление кора 2 делает значительно быстрей чем относительно новый zen2.
Тут не про параллеливание, а почему АМД так медленно делают деление.

UbIvItS · 1 авг 2023

Intro сказал(а): ↑

Вот скрин 5450. Частота меньше чем у рязани, а скорость быстрей, значит деление кора 2 делает значительно быстрей чем относительно новый zen2.
Тут не про параллеливание, а почему АМД так медленно делают деление.
Нажмите, чтобы раскрыть...

ну-так возьми и сделай многопоточку - вот и увидишь деление там дюже шустрое али нет да, и ваще - деление везчь весьма болезненная в плане скорости, тч амудя бы тоже взяли бы себе столь шустрый алго.. такое не засекретишь

Intro · 1 авг 2023

Оптимизировал алгоритм.

Код (ASM):

;; простые числа v0.03

.386

.model flat, stdcall

option casemap:none

include msvcrt.inc

include macros.asm

.data?

CountDIV dword ?

tblPrimes dword 8000 dup(?) ;6542

.code

align_proc

isPrimes proc (dword) uses edi n:dword

mov edi, n

mov eax, n

.for (ecx=2: ecx<eax: ecx++);

mov eax, edi

xor edx, edx

inc CountDIV

div ecx

.if (edx==0)

xor eax, eax

ret

.endif

.endfor

mov eax, 1

ret

isPrimes endp

align_proc

isPrimes2 proc (dword) uses edi n:dword

mov edi, n

mov eax, n

.for (ecx=0: tblPrimes[ecx*4]<eax: ecx++);

mov eax, edi

xor edx, edx

inc CountDIV

div tblPrimes[ecx*4]

.if (edx==0)

xor eax, eax

ret

.endif

.endfor

mov eax, 1

ret

isPrimes2 endp

align_proc

main proc C argc:sdword, argv:ptr ptr, envp:ptr

local tm:dword, a:dword, b:dword

mov a, 2

mov b, 250000

.if (argc>=2)

mov ebx, argv

.if (argc>=3)

mov a, atoi([ebx+1*4])

mov b, atoi([ebx+2*4])

.else

mov b, atoi([ebx+1*4])

.endif

.endif

mov tm, clock()

.for (esi=2, edi=0: esi<10000h: esi++)

.if (isPrimes(esi))

mov tblPrimes[edi*4], esi

inc edi

.endif

.endfor

xor ebx, ebx ;numPrimes=0

.for (esi=a: esi<=b: esi++)

add ebx, isPrimes2(esi)

.endfor

clock()

sub eax, tm

printf("Primes[%u, %u] = %u time = %d ms\n", a, b, ebx, eax)

printf("CountDIV = %u\n", CountDIV)

xor eax, eax

ret

main endp

main_startup3_END

При 100 млн время 30987 мс, результат 5761455
Получается деление реально AMD делает медленно, т.к. эта команда редкая, и деление на константу заменяется на код с умножением, если конечно компилятор это умеет. А для быстрого деления надо задействовать дополнительные транзисторы, вот и делают попроще.

UbIvItS · 2 авг 2023

Intro сказал(а): ↑

т.к. эта команда редкая
Нажмите, чтобы раскрыть...

в мат пакетах очень даже нередкая - акь производную найти без деления? пока ты не напишешь многопоточку - твои тесты неполные, пч явная многопоточка подавляет скрытую, а твои цифири на данный момент намекают именно на скрытую многопоточку ;D

Intro · 2 авг 2023

Для Хеона 100 млн 23361 мс. Частота райзена в момент теста 4.35 ГГц, время 30987, а Хеона 3ГГц и буста нету. Получается Хеон делает деление почти в два раза быстрей: 4.35/3*30987 /23361 = 1.923. Конечно, тут можно многопоток применить, только для функции isPrimes я это делать не буду. Но возможно, есть какие-то очень хитрые оптимизации навроде деление через умножения, которые могут работать в целом быстрей, и быстрей на AMD. Но это сложно.

UbIvItS · 2 авг 2023

Intro, скорость проца определяют три фактора (в расширенном случае 4е, но в данном случае рассмотрим 3)..

1. тактовая частота.
2. процент промахов кэша.
3. коэффициент многопоточности.
----------
УсЁ в твоём случае промахи кэша можно исключить - отсюда и выщимляем скрытую многопоточку да никаких супер-пупер секретных алго деления чисел у ЫнтЭля няма от слова СОВСЕМ

UbIvItS · 3 авг 2023

есть, кстати, простой способ как скрытую многопоточку вышибать - нужно поднагрузить проц левым процессом и запускать тест: скрытая многопоточка при росте загрузки проца очень сильно проседает.

Intro · 3 авг 2023

Вот немного переделал, таблица теперь макросом создаётся. Время компиляции уже нормальное такое 5.4 сек на райзене.

Код (ASM):

;; простые числа v0.04

.386

.model flat, stdcall

option casemap:none

include msvcrt.inc

include macros.asm

IS_PRIMES MACRO N:req

LOCAL i,r,res

r = N

i = 2

res = 1

WHILE i LT r ;;i < r

IF (N MOD i) EQ 0

res = 0

EXITM

ENDIF

r = N / i

i = i + 1

ENDM

EXITM <res>

ENDM

INIT_PRIMES MACRO tbl_name:req, max:req

LOCAL i

tbl_name dword 2

i = 3

WHILE i LE max ;;i <= max

IF IS_PRIMES(i) EQ 1

dword i

ENDIF

i = i + 2

ENDM

ENDM

.data?

CountDIV dword ?

.const

INIT_PRIMES tblPrimes, 10000h ;6542

.code

align_proc

isPrimes proc (dword) uses edi n:dword

mov edi, n

mov eax, n

.for (ecx=0: tblPrimes[ecx*4]<eax: ecx++);

mov eax, edi

xor edx, edx

inc CountDIV

div tblPrimes[ecx*4]

.if (edx==0)

xor eax, eax

ret

.endif

.endfor

mov eax, 1

ret

isPrimes endp

align_proc

main proc C argc:sdword, argv:ptr ptr, envp:ptr

local tm:dword, a:dword, b:dword

mov a, 2

mov b, 250000

.if (argc>=2)

mov ebx, argv

.if (argc>=3)

mov a, atoi([ebx+1*4])

mov b, atoi([ebx+2*4])

.else

mov b, atoi([ebx+1*4])

.endif

.endif

mov tm, clock()

xor ebx, ebx ;numPrimes=0

.for (esi=a: esi<=b: esi++)

add ebx, isPrimes(esi)

.endfor

clock()

sub eax, tm

printf("Primes[%u, %u] = %u time = %d ms\n", a, b, ebx, eax)

printf("CountDIV = %u\n", CountDIV)

xor eax, eax

ret

main endp

main_startup3_END

Нет, многопоточность тут точно не причём, Хеон умеет просто делить быстрей, деление штука не простая, раньше делалась вообще медленным микрокодом, сейчас всё равно используется микрокод, но там аппаратные ускорители используются. У АМД таких быстрых ускорителей нет, вот и вычисляет в два раза медленней, зато транзисторный ресурс для чего-то более важного задействован.

algent · 4 авг 2023

UbIvItS сказал(а): ↑

скорость проца определяют три фактора (в расширенном случае 4е, но в данном случае рассмотрим 3)..

1. тактовая частота.
2. процент промахов кэша.
3. коэффициент многопоточности.
Нажмите, чтобы раскрыть...

Это не главное. Самый важный фактор, это сколько контроллеров памяти в процессоре. По простому, сколько можно подключить планок памяти.
>> 2. процент промахов кэша.
А это скорее зависит от качества софта. Например:
var1 = byte_table[0]; // Читается некая линия кэша. При кэш-промахе, выполняется цикл шины.
var2 = byte_table[64]; // Читается другая линия кэша. При кэш-промахе, опять выполняется цикл шины.
var3 = byte_table[128]; // Читается третья линия кэша. При кэш-промахе, снова выполняется цикл шины.
цикл шины - это плохо(долго). Выставляется адрес ряда, потом латенси, потом выставляется адрес колонки, снова латенси, потом R или W.
Около 10 клоков памяти, не проца! Клоки памяти медленнее. Дикий оверхед одиночной R или W можно снизить, если читать/писать бёрстами, например подряд 8 чтений, из 8 подряд идущих ячеек памяти(columns). 8 чтений * 8 байт(64 бита - шина данных контроллера памяти) = 64 Байта. Интел не изобретал линию кэша, это тупо снижение оверхеда. Но бл**ь, смотрим три строки кода выше. Обычно программеры от балды размещают поля внутри структур, и структуры друг за другом. Худший случай, когда читаются N*64 Байта, ради N переменных.
Кстати, тут недавно чел рекламировал компилер Интела. Были казалось бы дикие цифры: код собранный компилятором MS выполнялся более 5 минут. Код собранный компилятором Интела выполнялся 23 секунды. Имхо, это возможно, особенно на подобранной задаче. Компилятор оценивает трассу, работу с памятью на ней и внаглую посылает нах, выбранное программистом расположение данных в памяти и перетасовывает их по своему. Ради минимизации кэш-промахов. Ну это конечно актуально при работе на огромных массивах данных.

Marylin · 4 авг 2023

algent сказал(а): ↑

Дикий оверхед одиночной R или W можно снизить, если читать/писать бёрстами, например подряд 8 чтений, из 8 подряд идущих ячеек памяти(columns). 8 чтений * 8 байт = 64 Байта.
Нажмите, чтобы раскрыть...

Контроллёр памяти всегда читает только в пакетном режиме, и параметр "Burst Lenght" (в вашей терминологии бёрсты) у него жёстко запрограммирован значением(8). На старых чипсетах можно было менять BL=4 или 8, но начиная с PCH этой опции уже нет.

Поэтому за одну транзакацию ЦП (с шиной памяти 8-байт, и линейкой кэша 64-байт) всегда читает из ОЗУ мин. 8х8=64 байта, но при старте приложения кэш(1) заполняется сразу под завязку. То-есть если запустить код ТС размером в пару кило, то весь он целиком разместится в кэш, и обращений к памяти больше не будет от слова совсем. Если-же в процессе работы приложению понадобятся доп.данные свыше размеров кэша L2/3, то только тогда уже ЦП запросит у контроллёра BIU (Bus Interface Unit) шину для доступа к ОЗУ - именно на данном этапе и всплывает наружу проблема выравнивания данных в памяти. Доступ к кэшу осуществляется по иным правилам, и выравнивание здесь не играет абсолютно никакой роли.

alex_dz · 4 авг 2023

DDR5 уже BL16 умеет

Marylin · 4 авг 2023

Ну так контроллёры серверных плат в режиме "BL=Page" способны читать вообще вcю открытую DRAM-страницу. Чтобы посчитать объём данных за одну/такую транзакацию, нужны 2 параметра: кол-во чипов в модуле памяти (обычно 8), и кол-во бит для адресации столбцов.

У меня модуль 2ГБ, и столбцы в матрице памяти одного чипа адресуются 10-битами, а строки 14-битами. То-есть получаем рулон туалетной бумаги шириной 2¹⁰=1024 байт, и высотой в 2¹⁴=16384 строк. Итого: 16384 × 1024 = 16 Мб. Дальше расчёты:

1. 16М ×8 (кол-во банков) = 132 Мб ёмкость одного чипа.
2. 132М ×8 (кол-во чипов в модуле) = 1 ГБ на одной стороне (см.ранк).
3. 1Гб ×2 (кол-во ранков) = 2 ГБ ёмкость всего модуля памяти.

Таким образом, в 1-ой строке 1-го чипа 1К данных. Соответственно если чипов всего 8, то в моём случае получаем DRAM-строку размером 8КБ. Операция чтения ОЗУ начинается с того, что контроллёр выставляет на шину адрес строки, и подтверждает его стробом RAS#. По этому стробу логика DRAM открывает нужную строку, но т.к. адресные линии разводятся по чипам параллельно (а линии данных последовательно), то указанная строка открывается сразу во всех 8-ми чипах памяти! Эту глобальную строку и назвали "DRAM-страницей".

Открытие страницы приводит к тому, что все её байты сваливаются в усилители "Sense-AMP" (у каждого чипа он свой). Теперь контроллёр выставляет на шину адрес столбца. При этом 3 мл.бита адреса принудительно сбрасываются в нуль так, что номер столбца всегда кратен 8-ми. Такой алго решает проблему чтения ОЗУ по нечётным адресам и границе 8-байт.

Если режим BL=8, то получаем цикл х8 чтения данных из усилителей "Sense-AMP" начиная с выровненного адреса. Если-же режим BL=Page, то в кэш ЦП копируется сразу вся открытая DRAM-страница размером 8К. Транзакация завершается тем, что данные из "Sense-AMP" перемещаются опять на свои места в матрицу памяти.

UbIvItS · 4 авг 2023

Intro, ну-лады, тогда расскажи/опиши (пожалуйста) алгосы амуди и ынтэля.. интересно же-ж

algent · 5 авг 2023

Marylin сказал(а): ↑

жёстко запрограммирован значением(8).
Нажмите, чтобы раскрыть...

Странно это. Не читал спецификации на контроллёры памяти Интел, но делал сам контроллёр SDRAM на ПЛИС. Уж full-page burst иметь надо. Например в MSR_MISC_FEATURE_CONTROL есть бит DCU который разрешает/запрещает Hardware Prefetcher который сразу тащит вторую линию кэша, ну, т.е. тащит две. Дополнительные PRECHARGE, ACTIVE, ну там RAS, CAS - нафига они нужны??

Marylin сказал(а): ↑

но при старте приложения кэш(1) заполняется сразу под завязку. То-есть если запустить код ТС размером
Нажмите, чтобы раскрыть...

"сразу под завязку" заполняется L1 code. А чем "сразу под завязку" заполняется кэш данных?? И при чём здесь ТС? Посмотрите пост

UbIvItS сказал(а): ↑

2. процент промахов кэша.
Нажмите, чтобы раскрыть...

и мой ответ на него. Кажется надо пояснить подробнее:
Код который я привёл, читает 192 байта, но реально, на тот момент времени нужны три байта. В остальных 189 программер разместил нужные переменные, но они понадобятся не скоро. Лишь несколько из них, понадобятся после того как эти три линии кэша будут затёрты другими переменными из этих окрестностей. Потом опять и опять, несколько других, понадобятся после того как эти три линии кэша снова будут затёрты. И будут многочисленные чтения 192 байт(циклы шины!!!), каждый раз ради 3(ну 5 или 10, или 20) байт. Цитирую себя

algent сказал(а): ↑

Ну это конечно актуально при работе на огромных массивах данных.
Нажмите, чтобы раскрыть...

Это конечно худший случай.

Marylin сказал(а): ↑

и всплывает наружу проблема выравнивания данных в памяти.
Нажмите, чтобы раскрыть...

Это адресовано мне ?? Если да, то не понял о чём вы. При чём здесь "выравнивания данных", каким оно здесь боком??

Marylin · 5 авг 2023

algent сказал(а): ↑

Код который я привёл, читает 192 байта, но реально, на тот момент времени нужны три байта. В остальных 189 программер разместил нужные переменные, но они понадобятся не скоро. Лишь несколько из них, понадобятся после того как эти три линии кэша будут затёрты другими переменными из этих окрестностей. Потом опять и опять, несколько других, понадобятся после того как эти три линии кэша снова будут затёрты. И будут многочисленные чтения 192 байт(циклы шины!!!), каждый раз ради 3(ну 5 или 10, или 20) байт.
Нажмите, чтобы раскрыть...

Вы видимо рассматриваете какой-то процессор от Dendy - в современных х86 дела обстоят немного иначе. На старте приложения заполняются сразу оба кэша(L1), и Inst и Data. После того как в L1d считали 192-байта (из примера выше), запись в них происходит локально, т.е. в кэш-линейки, а не в ОЗУ. Поэтому не будут никаких "многочисленных чтений 192 байт (циклы шины!!!) каждый раз ради 3 байт" . Иначе зачем вообще нужен такой кэш, если при каждом чихе, ЦП вынужден лезть чз внешнюю шину в ОЗУ? На этот факт и опирается реклама производителей типа: "Попаданий в кэш ~95%, против 5% промахов".

Кэш доступен для записи, и когда ЦП встречает в коде операцию(W) в память, то фактически модифицирует только данные в L1d. Исключением являются лишь ситуации, когда софт взаимодействует с внеш.устройствами посредством DMA (прямой доступ к ОЗУ, минуя ЦП). В этом случае в игру вступает механизм "Поддержки когерентности", который проводит валидацию данных в кэшах и ОЗУ. Если в кэш-строке взведён бит(М), она считается модифицированной и алгоритмом Write-Back (отложенная запись) выгружается из кэш в ОЗУ.

Intro · 5 авг 2023

UbIvItS сказал(а): ↑

Intro, ну-лады, тогда расскажи/опиши (пожалуйста) алгосы амуди и ынтэля.. интересно же-ж
Нажмите, чтобы раскрыть...

Да хрен его знает. Для меня ассемблер это реально высокоуровневый объектно-ориентированный ЯП, где есть такая штука как сокрытия данным/реализации. Процессоры давно не выполняют х86 код, где-то с первых пентаков или даже 486, этот код сначала транслируется в RISC-подобные команды которые потом выполняются АЛУ, которых несколько от 2-4 или даже 5 для целых, и ещё сколько там для FPU, SSE, AVX. При этом этот транслятор умеет делать оптимизации налету, так что программирования на ассемблере снова актуально, этот самый встроенный оптимизатор оптимизирует ваш сраный говнокод на ассемблере на лету.
Какой алго для делений AMD/Intel я конечно не знаю, но Хеон серверный процессор и там может быть какие-то особые реализации. Но команда DIV, IDIV выполняется реально редко, оптимизаторы стараются их убирать, вот амд решили сделать это деление попроще, чтобы запас транзисторов задействовать на что-то более важное.

UbIvItS · 5 авг 2023

Intro, мне всё же непонятно - с одной стороны ты говоришь..

Intro сказал(а): ↑

Какой алго для делений AMD/Intel я конечно не знаю
Нажмите, чтобы раскрыть...

потом..

Intro сказал(а): ↑

вот амд решили сделать это деление попроще, чтобы запас транзисторов задействовать на что-то более важное.
Нажмите, чтобы раскрыть...

короче, погружайся https://en.wikipedia.org/wiki/Division_algorithm#Non-restoring_division

The primary problem with a cascade of stages is the corresponding
increase in cycle time. To avoid this increase, some additional computation can proceed in parallel at the expense
of area.
http://pages.hmc.edu/harris/research/SRT.pdf
Нажмите, чтобы раскрыть...

без параллельки == НИКУДА

--- Сообщение объединено, 5 авг 2023 ---

algent сказал(а): ↑

и мой ответ на него. Кажется надо пояснить подробнее:
Код который я привёл, читает 192 байта, но реально, на тот момент времени нужны три байта. В остальных 189 программер разместил нужные переменные, но они понадобятся не скоро.
Нажмите, чтобы раскрыть...

ежли так поступать - процент промахов будет близок к 100% (прожка даже своими потоками может флудить кэш по бестолковке)

algent · 6 авг 2023

Marylin сказал(а): ↑

Вы видимо рассматриваете какой-то процессор от Dendy - в современных х86 дела обстоят немного иначе.
Нажмите, чтобы раскрыть...

Я просто приведу код:
for(i=0; i < 0x1000000; i += 6 * 64)
{
var1 = byte_table;
var2 = byte_table[i+128];
var3 = byte_table[i+256];
}
for(i=0; i < 0x1000000; i += 6 * 64)
{
var1 = byte_table[i+1];
var2 = byte_table[i+129];
var3 = byte_table[i+257];
}
for(i=0; i < 0x1000000; i += 6 * 64)
{
var1 = byte_table[i+2];
var2 = byte_table[i+130];
var3 = byte_table[i+258];
}
.....
Смещение +128(две линии кэша) сделал, предполагая что Hardware Prefetcher включен и тащится две линии кэша. Т.е. читается 384 байта ради трёх. В каждом цикле, все кэши затираются много раз.

Marylin сказал(а): ↑

Кэш доступен для записи, и когда ЦП встречает в коде операцию(W) в память, то фактически модифицирует только данные в L1d. Исключением являются лишь ситуации, когда
Нажмите, чтобы раскрыть...

Я тщательно изучал главу 11 Memory Cache Control, 3го тома. Надо для работы. Кстати, про взаимодействие PCH и процессора, удалось найти очень мало. В четырёхтомнике. Почти всё что есть, приведено на рисунке 11-2 . А десятитомник Интела, в России не получается скачать, даже через Tor.

--- Сообщение объединено, 6 авг 2023 ---

UbIvItS сказал(а): ↑

ежли так поступать
Нажмите, чтобы раскрыть...

Ну специально ведь никто не станет так делать. Хотя, вспоминаются истории, когда после апдейтов замедлялось старое железо .

--- Сообщение объединено, 6 авг 2023 ---

algent сказал(а): ↑

var1 = byte_table;
Нажмите, чтобы раскрыть...

Ошибся. Конечно надо - var1 = byte_table;

--- Сообщение объединено, 6 авг 2023 ---

Блин Ещё раз
var1 = byte_table;

--- Сообщение объединено, 6 авг 2023 ---

--- Сообщение объединено, 6 авг 2023 ---

Глюк

--- Сообщение объединено, 6 авг 2023 ---

;

Войти или зарегистрироваться

DIV! Ryzen 3600X VS Xeon 5450

Intro Active Member

Вложения:

Primes(v0.02).rar

Athlon640.png

Ryzen3600X.png

UbIvItS Well-Known Member

Intro Active Member

Вложения:

Xeon5450.png

UbIvItS Well-Known Member

Intro Active Member

UbIvItS Well-Known Member

Intro Active Member

UbIvItS Well-Known Member

UbIvItS Well-Known Member

Intro Active Member

algent Member

Marylin Active Member

alex_dz Active Member

Marylin Active Member

UbIvItS Well-Known Member

algent Member

Marylin Active Member

Intro Active Member

UbIvItS Well-Known Member

algent Member

Войти или зарегистрироваться

DIV! Ryzen 3600X VS Xeon 5450

Intro Active Member

Вложения:

Primes(v0.02).rar

Athlon640.png

Ryzen3600X.png

UbIvItS Well-Known Member

Intro Active Member

Вложения:

Xeon5450.png

UbIvItS Well-Known Member

Intro Active Member

UbIvItS Well-Known Member

Intro Active Member

UbIvItS Well-Known Member

UbIvItS Well-Known Member

Intro Active Member

algent Member

Marylin Active Member

alex_dz Active Member

Marylin Active Member

UbIvItS Well-Known Member

algent Member

Marylin Active Member

Intro Active Member

UbIvItS Well-Known Member

algent Member

Быстрый поиск