DIV! Ryzen 3600X VS Xeon 5450

UbIvItS · 6 авг 2023

algent сказал(а): ↑

А десятитомник Интела, в России не получается скачать, даже через Tor
Нажмите, чтобы раскрыть...

енто чо ли https://www.intel.com/content/www/us/en/developer/articles/technical/intel-sdm.html#inpage-nav-3 ?

--- Сообщение объединено, 6 авг 2023 ---

Marylin сказал(а): ↑

192-байта (из примера выше), запись в них происходит локально, т.е. в кэш-линейки, а не в ОЗУ. Поэтому не будут никаких "многочисленных чтений 192 байт (циклы шины!!!) каждый раз ради 3 байт" . Иначе зачем вообще нужен такой кэш, если при каждом чихе, ЦП вынужден лезть чз внешнюю шину в ОЗУ? На этот факт и опирается реклама производителей типа: "Попаданий в кэш ~95%, против 5% промахов".

Кэш доступен для записи, и когда ЦП встречает в коде операцию(W) в память, то фактически модифицирует только данные в L1d. Исключением являются лишь ситуации, когда софт взаимодействует с внеш.устройствами посредством DMA (прямой доступ к ОЗУ, минуя ЦП). В этом случае в игру вступает механизм "Поддержки когерентности", который проводит валидацию данных в кэшах и ОЗУ. Если в кэш-строке взведён бит(М), она считается модифицированной и алгоритмом Write-Back (отложенная запись) выгружается из кэш в ОЗУ.
Нажмите, чтобы раскрыть...

однако, во многопоточке такая радость не очень-то и работает == единственное, что порой может тащить, - это спекулятивные вычисления. тч по-хорошему в кэш лучше кидать лишь константы и переменные с низкой динамикой.

Marylin · 6 авг 2023

algent сказал(а): ↑

Смещение +128(две линии кэша) сделал, предполагая что Hardware Prefetcher включен и тащится две линии кэша. Т.е. читается 384 байта ради трёх.
Нажмите, чтобы раскрыть...

"Hardware Prefetch" не имеет никакого отношения к внешней шине ОЗУ - это сугубо внутренняя фишка процессора. Когда в MSR.1A4 бит(2) DCU=0, то за каждый такт ЦП, из L1d читается сразу по 2 линии (128-байт), вместо одной. Эти данные сливаются из L1d прямо в исполняющие устройства процессора "Execution Unit" (ALU или FPU, в зависимости от инструкции), а не из ОЗУ в кэш. В этом-же MSR имеется и бит(3) DCU-IP, который на основе указателя RIP предыдущих чтений делает прогноз, а нужно-ли вообще осуществлять предвыборку доп.строк из L1d. Софт "PC Wizard" предоставляет наиболее полную инфу о девейсах, в том числе и кэшах:

R81... · 6 авг 2023

Marylin сказал(а): ↑

адресные линии разводятся по чипам параллельно (а линии данных последовательно)
Нажмите, чтобы раскрыть...

??
https://skysmart.ru/articles/physics/parallelnoe-i-posledovatelnoe-soedinenie
https://skysmart.ru/articles/physics/parallelnoe-i-posledovatelnoe-soedinenie
Вы имели ввиду (а линии данных раздельно)

Marylin · 6 авг 2023

R81... сказал(а): ↑

Вы имели ввиду (а линии данных раздельно)
Нажмите, чтобы раскрыть...

Нет.. именно последовательно. (ну или да, раздельно)
Разрядность шины-данных одного чипа 8-бит, и при последовательном их соединении получаем 64-бита. Данные записываются в чипы так-же последовательно, например строка из 8-ми байт запишется не в один чип, а по байту в каждый.

R81... · 6 авг 2023

algent сказал(а): ↑

В четырёхтомнике.
Почти всё что есть, приведено на рисунке 11-2 .
А десятитомник Интела, в России не получается скачать,
даже через Tor.
Нажмите, чтобы раскрыть...

UbIvItS сказал(а): ↑

енто чо ли
https://www.intel.com/content/www/us/en/developer/articles/technical/intel-sdm.html#inpage-nav-3
Нажмите, чтобы раскрыть...

Ни чего не понятно - какой "четырёхтомник", зачем здесь Tor?
По ссылке UbIvItS-а ветки web.archive.org переводят на скачивание без Vol.4, т.е. 9-томник - 325462-sdm-vol-1-2abcd-3abcd.pdf (25 443 559),
который по рекомендации Indy_ уже давно скачивали.
А так же ВНИМАНИЕ сами разбирайтесь за какое число.
скачивается 325462-sdm-vol-1-2abcd-3abcd.pdf (52 916 900) -
ошибка в названии, должен называться ...-vol-1-2abcd-3abcd-4.pdf 10-томник!
Или имелись ввиду другие документы?

--- Сообщение объединено, 6 авг 2023 ---

Marylin, электрический ток идет последовательно или параллельно - к моему сожалению наши определения разошлись.

--- Сообщение объединено, 6 авг 2023 ---

P.S. Посмотрел внутрь - все 10-томники, от Indy_ тоже (26 220 267) и страниц больше 5038!

Marylin · 6 авг 2023

R81... сказал(а): ↑

электрический ток идет последовательно или параллельно
Нажмите, чтобы раскрыть...

Разводка по чипам идёт последовательно 8х8 (на плате модуля),
а сигналы по этой составной/внешней шине передаются конечно-же параллельным интерфейсом.

UbIvItS · 6 авг 2023

R81... сказал(а): ↑

Ни чего не понятно - какой "четырёхтомник", зачем здесь Tor?
По ссылке UbIvItS-а ветки web.archive.org переводят на скачивание без Vol.4, т.е. 9-томник - 325462-sdm-vol-1-2abcd-3abcd.pdf (25 443 559),
Нажмите, чтобы раскрыть...

ежли кому, прям очень надобно

algent · 7 авг 2023

UbIvItS сказал(а): ↑

енто чо ли https://www.intel.com/content/www
Нажмите, чтобы раскрыть...

Забавно, а сейчас через Тор получилось зайти. Но скачать ничего не смог.
И фиг с ним. Похоже у меня тот пдф, который зовут "Combined Volume Set of Intel® 64 and IA-32 Architectures Software Developer’s Manuals". 26 192 768 bytes, 5052 страницы. Но я глядя на bookmarks, думал что это "четырёхтомник". Похоже в 10 томах тоже самое. В нём есть секция - 1.4 RELATED LITERATURE - я там и был дезинформирован.

UbIvItS сказал(а): ↑

в кэш лучше кидать лишь константы и переменные с низкой динамикой.
Нажмите, чтобы раскрыть...

Нет. Кэш это как деньги, в высшей степени ликвидный ресурс. В любую секунду - сразу в дело. В отличии от недвиги, акций, золота и даже самой крутой банковской карты. К кэшу надо относиться как к регистрам, не держать там ничего лишнего. То что будет читаться в ближайшие несколько тысяч чтений. Не допускать "cache pollution". Всё что не понадобиться, сохранять командами MOVNTI, MOVNTQ, MOVNTDQ, MOVNTPS, and MOVNTPD.

Marylin сказал(а): ↑

"Hardware Prefetch" не имеет никакого отношения к внешней шине ОЗУ - это сугубо внутренняя фишка процессора. Когда в MSR.1A4 бит(2) DCU=0, то за каждый такт ЦП, из L1d читается сразу по 2 линии (128-байт), вместо одной. Эти данные сливаются из L1d прямо в исполняющие устройства процессора "Execution Unit" (ALU или FPU, в зависимости от инструкции), а не из ОЗУ в кэш.
Нажмите, чтобы раскрыть...

Имхо, вы куда-то спешили, поэтому напутали. Я сам довольно рассеян, мне это, увы, знакомо.
L1 - это нижний уровень, ниже только "крохотные" регистры, по 8 байт. Куда эти 128 байт девать? Да и он достаточно быстр, не нужно заморачиваться с шиной шириной 1024(8*128)бит.
Там я про DCU не писал. Я имел в виду L2 Hardware Prefetcher

Стр. 4640. У Атома нет L3, над L2 сразу ОЗУ.

R81... сказал(а): ↑

Ни чего не понятно - какой "четырёхтомник", зачем здесь Tor?
По ссылке UbIvItS-а ветки web.archive.org
Нажмите, чтобы раскрыть...

Имхо, лучше всегда качать с сайта производителя.

Marylin · 7 авг 2023

algent сказал(а): ↑

Имхо, вы куда-то спешили, поэтому напутали.
Нажмите, чтобы раскрыть...

Блин давно читал доки на тему DCU, и то подиагонали.
Сейчас ознакомился подробней, и оказывается сорян.. префетчеры читают из LLC (Last-Level-Cache) в L1d и если промах, то лезут в ОЗУ. Описание есть в доке Интела "IA64 Architectures Optimization Manual" (см.скрепку). Имеются три вида предвыборки: софт, хард и IP. Но теперь появились вопросы к практической реализации аппаратной фишки, и если следовать логике, то это просто разрекламированная хрень. Немного мыслей на этот счёт..
-------------------------------
Если бит[DCU] в MSR включает аппаратный префетч из ОЗУ, то сама ОЗУ должна поддерживать этот режим. Ведь как работает тот-же "BurstLength"? Чтобы организовать цикл чтения х8, DRAM-строку удерживают открытой регистры-защёлки в логике самих чипов памяти (#RAS активен всего такт и отпускается), а контроллёр по таймингам из SPD лишь посылает управляющие команды. На схеме ниже BL=2, размер пакета =4 байта (вместо 8, 64-бит). Контроллёр даже не дожидается окончания чтения первого пакета данных, и чз несколько тактов сразу выставляет адрес сл.столбца, который чип сохраняет в своём буфере декодера. Cигнал WE#=1, значит это чтение, а не запись (инверсный WriteEnable):

Все характеристики своего модуля производитель зашивает в SPD, однако формат данных в SPD для DDR2 отличается от DDR3, а последняя от DDR4. Модули DDR2 применялись в 2-хабовой архитектуре чипсетов ICH+MCH, поэтому в их SPD имеется байт(16) с поддерживаемыми значениями BL=4 или 8. Но с приходом PCH память стала DDR3, и BL аппаратно выставили в 8. Теперь в спеках SPD.DDR3(4) нет уже поля BL. https://simmtester.com/News/Publications/2

Таким образом, чтобы реализовать "Hardware Prefetch" для ОЗУ, нужно чтобы логика чипов могла удерживать строку открытой на время BL*2. То-есть фактически чип должен уметь BL=16. Завод обязательно прописал-бы свойство DCU в паспорте SPD модулей, но его нет ни в одной из спек SPD.DDRx.

Тогда каким ещё способом можно тянуть из ОЗУ сразу по 128-байт? Остаётся вариант, когда по окончании первой транзакации в 64-байт, контроллёр тут-же запрашивает вторую. Но это новая серия фильма, и такой алго никак нельзя назвать аппаратно-эффективным Hardware, поскольку в буфере запросов контроллёра и так очередь как до луны. Немного спасает ситуацию 2-канальный режим памяти, при котором чтение происходит параллельно во-времени. Но две линии с последовательными адресами в разных модулях DDR, это скорее исключение, чем правило. В любом случае, имхо лучше иметь хоть и кривую фишку, чем никакой - есть "Hardware Prefetch", ну и хорошо.

UbIvItS · 7 авг 2023

algent сказал(а): ↑

Нет. Кэш это как деньги, в высшей степени ликвидный ресурс.
Нажмите, чтобы раскрыть...

когда в системе крутиться 100500 процессов и каждый норовит подгрузить свою хрень - да, весьма ликвидный (но при этом вероятность успешной подгрузки именно констант акь раз-таки растёт, пч константы хорошо шарятся + они и для спекулятивки просто прекрасно заходят); другое дело, когда имеет место быть сугубо реалтайм - вот тогда действительно в кэш можно пихать варики даже с довольно высокими уровнями изменчивости.

--- Сообщение объединено, 7 авг 2023 ---

Marylin сказал(а): ↑

Тогда каким ещё способом можно тянуть из ОЗУ сразу по 128-байт? Остаётся вариант, когда по окончании первой транзакации в 64-байт, контроллёр тут-же запрашивает вторую. Но это новая серия фильма, и такой алго никак нельзя назвать аппаратно-эффективным Hardware, поскольку в буфере запросов контроллёра и так очередь как до луны. Немного спасает ситуацию 2-канальный режим памяти, при котором чтение происходит параллельно во-времени. Но две линии с последовательными адресами в разных модулях DDR, это скорее исключение, чем правило. В любом случае, имхо лучше иметь хоть и кривую фишку, чем никакой - есть "Hardware Prefetch", ну и хорошо.
Нажмите, чтобы раскрыть...

обычно рекламных целей ради описывают некие максималки, кои требуют акь минимум повышенных тактовых частот и главное - чтоб звёзды дюже фаворно.. хотя при использование юникернов из жестянок можно действительно хорошо тащить скорость.

algent · 8 авг 2023

Marylin сказал(а): ↑

IA64 Architectures Optimization Manual" (см.скрепку).
Нажмите, чтобы раскрыть...

О, за май 2020, спасибо, у меня "четырёхтомник" за ту же дату. Вдруг кому старые версии (2015, 2016) понадобятся могу выложить.

Marylin сказал(а): ↑

Если бит[DCU] в MSR включает аппаратный префетч из ОЗУ, то сама ОЗУ должна поддерживать этот режим.
Нажмите, чтобы раскрыть...

Залез на сайт Микрона и скачал первую попавшуюся:
Automotive DDR4 SDRAM MT40A512M8, MT40A256M16.
https://media-www.micron.com/-/medi...dram.pdf?rev=b8d7463ccbb44cad81a0e73712e0c30e
Куча изменений, по сравнению со старой памятью, нет одиночных RW, нет full-page burst(256 R или W). Но вот на 200 странице:
Figure 130: Consecutive READ (BL8) with 1tCK Preamble in Different Bank Group
Читается 16 чтений, без потерь тактов, но вторые 8, из другого банка. Фиг знает. Физически банк другой. Но что мешает считать данные из 2х банков(да хоть из 16), как единую последовательность... Главное помнить об этом, когда пишем. Ну это надо тратить время, чтобы разобраться подробнее...

Intro · 13 авг 2023

Переделал код, алгоритм Решето Аткина, взял тут https://ru.wikipedia.org/wiki/Решето_Аткина
Оптимизировал как смог, деление заменил обратным умножение.

Код (ASM):

;; простые числа v0.05

.386

.model flat, stdcall

option casemap:none

include \masm32\include\windows.inc

include \masm32\include\kernel32.inc

includelib \masm32\lib\kernel32.lib

include msvcrt.inc

include macros.asm

.data?

CountDIV dword ?

;is_prime byte 10000000 dup (?) ;bool is_prime[1001];

.code

align_proc

CountPrimes proc (dword) uses esi edi ebx limit:dword

local i:dword, sqr_lim:dword, pIsPrime:ptr

;;mov m12, 12, m12:dword

;// Инициализация решета

; sqr_lim = (int)sqrt((long double)limit);

fild limit

fsqrt

fistp sqr_lim

mov pIsPrime, GlobalAlloc(GPTR, limit)

ASSUME eax:ptr byte

; .for (edx = 0: edx <= limit: edx++)

; mov is_prime[edx], false

; .endfor

mov [eax][2], true

mov [eax][3], true

;// Предположительно простые — это целые с нечётным числом

;// представлений в данных квадратных формах.

;// x2 и y2 — это квадраты i и j (оптимизация).

xor esi, esi ;x2:esi = 0

.for (i = 1, eax=i: eax<=sqr_lim: i++, eax=i)

;x2 += 2 * i - 1

lea esi, [esi+eax*2-1]

xor edi, edi ;y2:edi = 0

.for (ebx = 1: ebx <= sqr_lim: ebx++); j:ebx

;y2 += 2 * j - 1

lea edi, [edi+ebx*2-1]

;n = 4 * x2 + y2;

lea ecx, [esi*4+edi] ;n:ecx

.if (ecx <= limit)

;n / 12

mov eax, 0AAAAAAABh

mul ecx

shr edx, 3 ;edx = n % 12

imul eax, edx, 12

sub eax, ecx

.if (eax == -1 || eax == -5)

;is_prime[n] = !is_prime[n]

mov eax, pIsPrime

xor [eax][ecx], 1

.endif

inc CountDIV

.endif

;//// n = 3 * x2 + y2;

sub ecx, esi ;n -= x2; ;// Оптимизация

.if (ecx <= limit)

;n / 12

mov eax, 0AAAAAAABh

mul ecx

shr edx, 3 ;edx = n % 12

imul eax, edx, 12

sub eax, ecx

.if (eax == -7)

;is_prime[n] = !is_prime[n]

mov eax, pIsPrime

xor [eax][ecx], 1

.endif

inc CountDIV

.endif

;//// n = 3 * x2 - y2;

;n -= 2 * y2; ;// Оптимизация

.if (i > ebx)

sub ecx, edi

sub ecx, edi

.if (ecx <= limit)

;n % 12

mov eax, 0AAAAAAABh

mul ecx

shr edx, 3

imul eax, edx, 12

sub eax, ecx

.if (eax == -11)

;is_prime[n] = !is_prime[n]

mov eax, pIsPrime

xor [eax][ecx], 1

.endif

inc CountDIV

.endif

.endif

.endfor

.endfor

;// Отсеиваем кратные квадратам простых чисел в интервале [5, sqrt(limit)].

;// (основной этап не может их отсеять)

ASSUME esi:ptr byte, eax:nothing

mov esi, pIsPrime

.for (edi = 5: edi <= sqr_lim: edi++)

.if ([esi][edi])

;n = i * i //n:eax

mov eax, edi

mul edi

.for (ecx = eax: ecx <= limit: ecx += eax); j:ecx

mov [esi][ecx], false

.endfor

.endif

.endfor

;// Посчёт простых чисел

mov ebx, 3

.for (edi=6, edx=0, ecx=1: edi <= limit: edi++) ;// добавлена проверка делимости на 3 и 5. В оригинальной версии алгоритма потребности в ней нет.

.if ([esi][edi] && edx && ecx)

inc ebx

.endif

inc edx

.if (edx==3)

xor edx, edx

.endif

inc ecx

.if (ecx==5)

xor ecx, ecx

.endif

.endfor

GlobalFree(esi)

ASSUME esi:nothing

mov eax, ebx

ret

CountPrimes endp

align_proc

main proc C argc:sdword, argv:ptr ptr, envp:ptr

local tm:dword, a:dword, b:dword

.if (argc>=2)

mov ebx, argv

.if (argc>=3)

mov a, atoi([ebx+1*4])

mov b, atoi([ebx+2*4])

.else

mov a, 2

mov b, atoi([ebx+1*4])

.endif

.else

printf("used: Primes from to OR Primes to\n")

.endif

mov tm, clock()

mov ebx, CountPrimes(b) ;numPrimes=

clock()

sub eax, tm

printf("Primes[%u, %u] = %u time = %d ms\n", a, b, ebx, eax)

printf("CountDIV = %u\n", CountDIV)

xor eax, eax

ret

main endp

main_startup3_END

Ввод 1000000000(млрд), результат: 52769865 время 12779 мс, деление 1054869776
Процессор райзен 3600Х, Хеон 5450 завтра если время будет. Если деление не оптимизировать, то намного медленней.

Intro · 14 авг 2023

Хеон 1 млрд выполнил за 32737 мс. Тут код сложней, оптимизирован, и райзен убедительно выигрывает.

Intro · 20 авг 2023

Занятно, но 32 битная версия дала неправильный результат при 1 млрд.

Код (ASM):

;; простые числа v0.06

.x64

;.model flat, stdcall

option casemap:none

option frame:auto

option LITERALS:ON

IF @Platform EQ 1

APP_WIN64 EQU 1

ENDIF

include types.inc

include windows.inc

include kernel32.inc

include msvcrt.inc

includelib kernel32.lib

includelib msvcrt.lib

include \assemblers\include\macros.asm

.data?

CountDIV qword ?

.code

align_proc

CountPrimes proc (qword) uses rsi rdi rbx limit:qword

local sqr_lim:qword

mov limit, rcx

;// Инициализация решета

; sqr_lim = (int)sqrt((long double)limit);

fild limit

fsqrt

fistp sqr_lim

mov rsi, GlobalAlloc(GPTR, limit) ;pIsPrime:HGLOBAL

ASSUME rsi:ptr byte

mov [rsi][2], true

mov [rsi][3], true

;// Предположительно простые — это целые с нечётным числом

;// представлений в данных квадратных формах.

;// x2 и y2 — это квадраты i и j (оптимизация).

mov r10, 0AAAAAAAAAAAAAAABh

xor r11, r11

xor r8, r8 ;x2:r8 = 0

.for (r9 = 1: r9<=sqr_lim: r9++);i:r9

;x2 += 2 * r9 - 1

lea r8, [r8+r9*2-1]

xor rdi, rdi ;y2:rdi = 0

.for (rbx = 1: rbx <= sqr_lim: rbx++); j:rbx

;y2 += 2 * j - 1

lea rdi, [rdi+rbx*2-1]

;n = 4 * x2 + y2;

lea rcx, [r8*4+rdi] ;n:rcx

.if (rcx <= limit)

;n / 12

mov rax, r10

mul rcx

shr rdx, 3 ;rdx = n / 12

neg rdx

lea rdx, [rdx+rdx*2]

lea rax, [rcx+rdx*4]

; imul rax, rdx, 12

; sub rax, rcx

.if (rax == 1 || rax == 5)

;is_prime[n] = !is_prime[n]

xor [rsi][rcx], 1

.endif

inc CountDIV

.endif

;//// n = 3 * x2 + y2;

sub rcx, r8 ;n -= x2; ;// Оптимизация

.if (rcx <= limit)

;n / 12

mov rax, r10

mul rcx

shr rdx, 3 ;rdx = n % 12

neg rdx

lea rdx, [rdx+rdx*2]

lea rax, [rcx+rdx*4]

; imul rax, rdx, 12

; sub rax, rcx

.if (rax == 7)

;is_prime[n] = !is_prime[n]

xor [rsi][rcx], 1

.endif

inc CountDIV

.endif

;//// n = 3 * x2 - y2;

.if (r9 > rbx)

;n -= 2 * y2; ;// Оптимизация

sub rcx, rdi

sub rcx, rdi

.if (rcx <= limit)

;n % 12

mov rax, r10

mul rcx

shr rdx, 3 ;rdx = n % 12

neg rdx

lea rdx, [rdx+rdx*2]

lea rax, [rcx+rdx*4]

; imul rax, rdx, 12

; sub rax, rcx

.if (rax == 11)

;is_prime[n] = !is_prime[n]

xor [rsi][rcx], 1

.endif

inc CountDIV

.endif

.endif

.endfor

.endfor

;// Отсеиваем кратные квадратам простых чисел в интервале [5, sqrt(limit)].

;// (основной этап не может их отсеять)

.for (rdi = 5: rdi <= sqr_lim: rdi++)

.if ([rsi][rdi])

;n = i * i //n:rax

mov rax, rdi

mul rdi

.for (rcx = rax: rcx <= limit: rcx += rax); j:rcx

mov [rsi][rcx], false

.endfor

.endif

.endfor

;// Подсчёт простых чисел

mov rbx, 3

.for (rdi=6, rdx=0, rcx=1: rdi <= limit: rdi++) ;// добавлена проверка делимости на 3 и 5. В оригинальной версии алгоритма потребности в ней нет.

.if ([rsi][rdi] && rdx && rcx)

inc rbx

.endif

inc rdx

.if (rdx>=3)

sub rdx, 3

.endif

inc rcx

.if (rcx>=5)

sub rcx, 5

.endif

.endfor

GlobalFree(rsi)

ASSUME rsi:nothing

mov rax, rbx

ret

CountPrimes endp

align_proc

main proc frame argc:sdword, argv:ptr ptr, envp:ptr

local tm:sdword, a:qword, b:qword

mov argc, ecx

mov argv, rdx

mov envp, r8

.if (argc>=2)

mov rbx, argv

.if (argc>=3)

mov a, atoi([rbx+1*8])

mov b, atoi([rbx+2*8])

.else

mov a, 2

mov b, atoi([rbx+1*8])

.endif

mov tm, clock()

mov rbx, CountPrimes(b) ;numPrimes=

clock()

sub eax, tm

printf$("Primes[%u, %u] = %u time = %d ms\n", a, b, rbx, eax)

printf$("CountDIV = %u\n", CountDIV)

.else

printf$("used: Primes from to OR Primes to\n")

.endif

xor eax, eax

ret

main endp

main_startup3_END

Переполнение произошло в строчке n = 4 * x2 + y2;
64 битная версия дала 50847534, подсчитала чуть быстрей 12274 мс.
А теперь версия на С++

Код (C++):

#include <stdio.h>

#include <stdlib.h>

#include <math.h>

#include <time.h>

size_t CountDIV = 0;

size_t CountPrimes(size_t limit)

{

size_t sqr_lim = (size_t)sqrt((double)limit);

bool *pIsPrime = new bool[limit+1];

pIsPrime[2] = true;

pIsPrime[3] = true;

// Предположительно простые — это целые с нечётным числом

// представлений в данных квадратных формах.

// x2 и y2 — это квадраты i и j (оптимизация).

for (size_t i = 1, x2 = 0; i <= sqr_lim; ++i) {

x2 += 2 * i - 1;

for (size_t j = 1, y2 = 0; j <= sqr_lim; ++j) {

y2 += 2 * j - 1;

size_t n = 4 * x2 + y2;

if (n<=limit && (n%12 == 1 || n%12 == 5))

pIsPrime[n] = !pIsPrime[n];

// n = 3 * x2 + y2;

n -= x2; // Оптимизация

if (n<=limit && n%12 == 7)

pIsPrime[n] = !pIsPrime[n];

// n = 3 * x2 - y2;

n -= 2 * y2; // Оптимизация

if (i>j && n<=limit && n%12 == 11)

pIsPrime[n] = !pIsPrime[n];

}

}

// Отсеиваем кратные квадратам простых чисел в интервале [5, sqrt(limit)].

// (основной этап не может их отсеять)

for (size_t i = 5; i <= sqr_lim; ++i) {

if (pIsPrime[i]) {

size_t n = i * i;

for (size_t j = n; j <= limit; j += n)

pIsPrime[j] = false;

}

}

// Посчёт простых чисел

size_t count = 3;

for (size_t i = 6; i <= limit; ++i) { // добавлена проверка делимости на 3 и 5. В оригинальной версии алгоритма потребности в ней нет.

if (pIsPrime[i] && i%3!=0 && i%5!=0)

count++;

}

delete[] pIsPrime;

return count;

}

int main(int argc, const char **argv, const char **envp)

{

if ( argc < 2 ){

printf("used: Primes from to OR Primes to\n");

} else {

size_t a,b,numPrimes;

if (argc < 3){

a = 2;

b = atoi(argv[1]);

} else {

a = atoi(argv[1]);

b = atoi(argv[2]);

}

clock_t tm = clock();

numPrimes = CountPrimes(b);

tm = clock() - tm;

printf("Primes[%u, %u] = %u time = %d ms\n", a, b, numPrimes, tm);

printf("CountDIV = %u\n", CountDIV);

}

return 0;

}

Тут точность зависит от платформы, желательно 64 битная. И код С++ чуть быстрей ассемблера 32, и чуть медленней 64.
Вообще, смысл топика как раз тесты: Ассемблер, С/С++, Питон. С питоном-питухоном у меня очень плохо, так что кто бы портировал код С++ на питухон?

UbIvItS · 20 авг 2023

Intro, ну-вот и Молодец + решето-то можно раскидывать на потоки

Intro сказал(а): ↑

С питоном-питухоном у меня очень плохо, так что кто бы портировал код С++ на питухон?
Нажмите, чтобы раскрыть...

смысла нет - питоха для обёрток - на нём удобно собирать команду и отправлять на внешний модуль.

Intro · 21 авг 2023

Athlon II x4 640 3ГГц время 34429 мс, чуть медленней Хеона, думаю тут и отсутствие кеша сказалось. Вероятно Феном на 3ГГц будет чуть быстрей.

Intro · 2 сен 2023

Вот сделал оптимизацию, во первых делимости на 3 и 5 не нужна. И второе, булевы упакованные, вроде vector<bool> в плюсах тоже упакованный, но я по простому, по самодельному сделал.

Код (C++):

//Простые числа. v0.8

#include <stdio.h>

#include <stdlib.h>

#include <math.h>

#include <time.h>

#include <stdint.h>

size_t CountDIV = 0;

size_t CountPrimes(size_t limit)

{

size_t sqr_lim = (size_t)sqrt((double)limit);

uint8_t *pIsPrime = new uint8_t[limit/8+1];

pIsPrime[2/8] |= 1 << 2%8;

pIsPrime[3/8] |= 1 << 3%8;

// Предположительно простые — это целые с нечётным числом

// представлений в данных квадратных формах.

// x2 и y2 — это квадраты i и j (оптимизация).

for (size_t i = 1, x2 = 0; i <= sqr_lim; ++i){

x2 += 2 * i - 1;

for (size_t j = 1, y2 = 0; j <= sqr_lim; ++j){

y2 += 2 * j - 1;

size_t n = 4 * x2 + y2;

if (n<=limit){

if (n%12 == 1 || n%12 == 5)

pIsPrime[n/8] ^= 1 << n%8;

CountDIV++;

}

n -= x2; // n = 3 * x2 + y2; //Оптимизация

if (n<=limit){

if (n%12 == 7)

pIsPrime[n/8] ^= 1 << n%8;

CountDIV++;

}

n -= 2*y2; // n = 3 * x2 - y2;// Оптимизация

if (i>j && n<=limit){

if (n%12 == 11)

pIsPrime[n/8] ^= 1 << n%8;

CountDIV++;

}

}

}

// Отсеиваем кратные квадратам простых чисел в интервале [5, sqrt(limit)].

// (основной этап не может их отсеять)

for (size_t i = 5; i <= sqr_lim; ++i){

if (pIsPrime[i/8] & 1<<i%8){

for (size_t n = i*i, j = n; j <= limit; j += n)

pIsPrime[j/8] &= ~(1<<j%8);

}

}

// Подсчёт простых чисел

size_t count = 2;

for (size_t i = 5; i <= limit; i+=2)

count += (pIsPrime[i/8] & 1<<i%8) ? 1 : 0;

delete[] pIsPrime;

return count;

}

int main(int argc, const char **argv, const char **envp)

{

if ( argc < 2 ){

printf("used: Primes from to OR Primes to\n");

} else {

size_t a,b,numPrimes;

if (argc < 3){

a = 2;

b = atoi(argv[1]);

} else {

a = atoi(argv[1]);

b = atoi(argv[2]);

}

clock_t tm = clock();

numPrimes = CountPrimes(b);

tm = clock() - tm;

printf("Primes[%u, %u] = %u time = %d ms\n", a, b, numPrimes, tm);

printf("CountDIV = %u\n", CountDIV);

}

return 0;

}

В общем, вычислений стало больше, но программа стала быстрей из-за меньшего использования памяти. На райзене 9326 вместо 11040 мс. Надо студию поновей установить, а то старая только в Win32 работает.

--- Сообщение объединено, 2 сен 2023 ---

Вот немного от рефакторил, просто для наглядности использовал макрофункции, код тот же самый, но с макрофункциями наглядней и меньше шансов накосячить из-за опечаток.

Код (C++):

//Простые числа. v0.81

#include <stdio.h>

#include <stdlib.h>

#include <math.h>

#include <time.h>

#include <stdint.h>

#define NewBools(name,N) ( (name) = new uint8_t[(N)/8+1] )

#define DelBools(name) ( delete[] (name) )

#define GetBool(name,N) ( (name)[(N)/8] & 1<<(N)%8 )

#define SetBoolTrue(name,N) ( (name)[(N)/8] |= 1<<(N)%8 )

#define SetBoolFalse(name,N) ( (name)[(N)/8] &= ~(1<<(N)%8) )

#define SetBoolNOT(name,N) ( (name)[(N)/8] ^= 1<<(N)%8 )

size_t CountDIV = 0;

size_t CountPrimes(size_t limit)

{

uint8_t *pIsPrime;

size_t sqr_lim = (size_t)sqrt((double)limit);

NewBools(pIsPrime, limit);

SetBoolTrue(pIsPrime, 2);

SetBoolTrue(pIsPrime, 3);

// Предположительно простые — это целые с нечётным числом

// представлений в данных квадратных формах.

// x2 и y2 — это квадраты i и j (оптимизация).

for (size_t i = 1, x2 = 0; i <= sqr_lim; ++i){

x2 += 2 * i - 1;

for (size_t j = 1, y2 = 0; j <= sqr_lim; ++j){

y2 += 2 * j - 1;

size_t n = 4 * x2 + y2;

if (n<=limit){

if (n%12 == 1 || n%12 == 5)

SetBoolNOT(pIsPrime, n);

CountDIV++;

}

n -= x2; // n = 3 * x2 + y2; //Оптимизация

if (n<=limit){

if (n%12 == 7)

SetBoolNOT(pIsPrime, n);

CountDIV++;

}

n -= 2*y2; // n = 3 * x2 - y2;// Оптимизация

if (i>j && n<=limit){

if (n%12 == 11)

SetBoolNOT(pIsPrime, n);

CountDIV++;

}

}

}

// Отсеиваем кратные квадратам простых чисел в интервале [5, sqrt(limit)].

// (основной этап не может их отсеять)

for (size_t i = 5; i <= sqr_lim; ++i){

if (GetBool(pIsPrime, i)){

for (size_t n = i*i, j = n; j <= limit; j += n)

SetBoolFalse(pIsPrime, j);

}

}

// Подсчёт простых чисел

size_t count = 2;

for (size_t i = 5; i <= limit; i+=2)

count += GetBool(pIsPrime, i) ? 1 : 0;

DelBools(pIsPrime);

return count;

}

int main(int argc, const char **argv, const char **envp)

{

if ( argc < 2 ){

printf("used: Primes from to OR Primes to\n");

} else {

size_t a,b,numPrimes;

if (argc < 3){

a = 2;

b = atoi(argv[1]);

} else {

a = atoi(argv[1]);

b = atoi(argv[2]);

}

clock_t tm = clock();

numPrimes = CountPrimes(b);

tm = clock() - tm;

printf("Primes[%u, %u] = %u time = %d ms\n", a, b, numPrimes, tm);

printf("CountDIV = %u\n", CountDIV);

}

return 0;

}

--- Сообщение объединено, 2 сен 2023 ---

И ещё дополнительные тесты. Закрыл все браузеры, и получил 8995 мс это этот код, и ассемблерный вариант х86 9258 мс и х64 8960 мс. Как видно свободный кеш заметно влияет.
И я забыл самое главное.

В общем, тут к неправильным тестам, тест ютуба не корректный показал что питон медленней С/Ассемблере всего в 10 раз. Но если взять код посложней разница будет более значительная думаю раз в 100. Да, питухон это сложный ЯП для сложных типов данных типа там нейросети, или ещё что-то аналогично по сложности. А для простых типов данных его использовать не очень выгодно, во только пограммисты питухунисты про это конечно не знаю, или знать не хотят.

Войти или зарегистрироваться

DIV! Ryzen 3600X VS Xeon 5450

UbIvItS Well-Known Member

Marylin Active Member

R81... Active Member

Marylin Active Member

R81... Active Member

Marylin Active Member

UbIvItS Well-Known Member

Вложения:

ынтэль тома.7z.001.7z

ынтэль тома.7z.002.7z

algent Active Member

Marylin Active Member

Вложения:

64-ia-32-architectures-optimization-manual.zip

UbIvItS Well-Known Member

algent Active Member

Вложения:

4gb_auto_ddr4_sdram.pdf

Intro Well-Known Member

Intro Well-Known Member

Intro Well-Known Member

UbIvItS Well-Known Member

Intro Well-Known Member

Intro Well-Known Member

Войти или зарегистрироваться

DIV! Ryzen 3600X VS Xeon 5450

UbIvItS Well-Known Member

Marylin Active Member

R81... Active Member

Marylin Active Member

R81... Active Member

Marylin Active Member

UbIvItS Well-Known Member

Вложения:

ынтэль тома.7z.001.7z

ынтэль тома.7z.002.7z

algent Active Member

Marylin Active Member

Вложения:

64-ia-32-architectures-optimization-manual.zip

UbIvItS Well-Known Member

algent Active Member

Вложения:

4gb_auto_ddr4_sdram.pdf

Intro Well-Known Member

Intro Well-Known Member

Intro Well-Known Member

UbIvItS Well-Known Member

Intro Well-Known Member

Intro Well-Known Member

Быстрый поиск