Вычисление индекса блока и обьекта в нем по глобальному индексу обьекта

Vicshann · 24 июн 2024

Размер блока определяется как "BlockSize = PageSize*BlockIndex".
"PageSize = 4096" но может быть и большей степенью двойки.
Размер обьекта (UnitSize) произвольный, но меньше или равно PageSize.
Так как BlockSize не всегда делится на UnitSize без остатка, то по формуле получается результат с накапливающейся ошибкой(Чем больше индекс блока, тем больше ошибка). Например когда "
UnitSize = 26"

Так считается индекс блока(С ошибкой, когда имеем остаток от BlockSize/UnitSize):

Код (Text):

size_t FindBlockForUnit(size_t UnitIndex, size_t UnitSize, size_t PageSize)

{

size_t UnitsOnPage = PageSize / UnitSize;

size_t S = (2 * UnitIndex) / UnitsOnPage;

size_t Discriminant = (4 * S) + 1;

size_t BlockIndex = (std::sqrt(Discriminant) - 1) / 2;

return BlockIndex;

}

Эта функция тоже дает результат без учета потерянных байтов на конце каждого блока:

Код (Text):

size_t GetCumulUnitsForBlock(size_t BlockIndex, size_t UnitSize, size_t PageSize)

{

size_t BlockSize = (PageSize * BlockIndex);

size_t CumulPages = (BlockIndex * (BlockIndex + 1)) / 2;

size_t CumulBytes = PageSize * CumulPages;

size_t CumulUnits = CumulBytes / UnitSize;

return CumulUnits;

}

Последовательность остаточных байтов для блока повторяется каждые "size_t BlkRange = UnitSize / (1 << std::countr_zero(UnitSize)); "
Можно было бы сделать таблицу для коррекции но она сильно растет вместе с размером
UnitSize. Таблицы пришлось бы генериривать во время компиляции, а это очень замедлит сборку.

Это все нужно для быстрого доступа к обьекту в памяти по индексу, при том что в памяти они в разных блоках и есть только список этих блоков для нахождения по индексу. А тот, кто обращается к обьекту по индексу ни чего про блоки знать не должен.

В математике я не силен. Может есть способ вычислять все эти коррекции? Линейная алгебра, дифференциальные уравнения? ChatGPT в этом направлении шел, но запутался.

f13nd · 24 июн 2024

Несколько раз перечитал. Так и не понял что такое блок, почему его размер - функция от его номера и как вычисляя номер элемента в буфере можно выйти в квадратный трехчлен.

Vicshann сказал(а): ↑

Последовательность остаточных байтов для блока повторяется каждые "size_t BlkRange = UnitSize / (1 << std::countr_zero(UnitSize)); "
Нажмите, чтобы раскрыть...

Вот здесь что-то безумное:
При UnitSize=26 BlkRange=26/2=13, но 4096=157*26 + 14.
При UnitSize=34 BlkRange=34/2=17, но 4096=120*34 + 16.
Если эти хвосты - выравнивания до размера страницы, то длина выравнивания =PageSize%UnitSize, а не этот содом.
Функцию с такими аргументами я вижу вот так:

Код (Text):

size_t FindBlockForUnit(size_t UnitIndex, size_t UnitSize, size_t PageSize)

{

size_t UnitsPerPage=PageSize/UnitSize;

size_t PageIndex=UnitSize/UnitsPerPage;

return PageIndex;

}

Но это если отбросить загадочную и непонятную сущность по имени Block.

rmn · 24 июн 2024

f13nd сказал(а): ↑

почему его размер - функция от его номера
Нажмите, чтобы раскрыть...

Ну так чатжпт, небось, подсказал, что динамический массив должен расти удваиваиванием текущего размера (ну или там newSize = currSize * 1.6).

Vicshann,
Не парься, просто выделяй блоки по 4096*unitSize, юзерам уже нормально так в уши насрано про развитие технологий и обоснованность резервирования 2ТБ на каждый процесс, так что они с готовностью закупаются этими вкусными планками по 128 гигов

Vicshann · 24 июн 2024

У меня уже есть Uniform Выделение блоков, когда все блоки одного размера, есть Exponential, когда все блоки это степень двойки. Не хватает только линейного роста блоков, для полного комплекта
У Exponential та же проблема, но там всего 32 блока, просто сделал подсчет коррекциии во время компиляции, все же на С++ это у меня.
Проблема что размер блока это PageSize*BlockIndex, но количество обьектов в блоке не UnitsInPage*BlockIndex потомы что накапливаются остаточные байты в конце каждого блока. Если делать всегда "UnitsInBlock = UnitsInPage*BlockIndex" то накапливаются конкретно потерянные байты, очень ощутимо при большом UnitSize.

Может это прояснит дело LINK
Тамошние гуру прибили вопрос даже не вникая

rmn · 24 июн 2024

Добавь к каждому блоку дворд, хранящий количество элементов в нем:

Код (C):

struct block_t

{

uint32_t unitCount;

void* units;

...

};

При создании нового блока инициализируешь счетчик:

Код (C):

block_t* create_block (uint32_t index, uint32_t pageSize, uint32_t unitSize...)

{

block_t* block = new block_t;

block->unitCount = (pageSize * (1 + index)) / unitSize;

...

}

Поиск блока по индексу юнита делаешь в цикле:

Код (C):

uint32_t block_for_unit (block_t* blocks, uint32_t count, uint32_t unitIndex, uint32_t* unitIndexInBlock...)

{

uint32_t i;

for (i=0; i<count && unitIndex < blocks[i].unitCount; unitIndex -= blocks[i++].unitCount)

;

*unitIndexInBlock = unitIndex;

return i;

}

Вангую, цикл с одним сравнением и одним вычитанием на массиве из миллиона элементов будет работать быстрее, чем куча умножений/делений/корней.

alex_dz · 24 июн 2024

Vicshann
как насчет начать использовать СТЛ - std::vector/etc?

Vicshann · 24 июн 2024

STL не вариант, как и все стандартные библиотеки
Кажется std::vector выделяет обьекты пачками, стандартным аллокатором. Там тоже, если нужно что-то спацифическое, то лучше уже свой аллокатор ему передавать.
У меня блоки берутся сразу от mmap/VirtualAlloc.
Циклы как бы нельзя, пусть и только при переходе границы блоков итератором требуются все эти вычисления. Иначе неприятный сюрприз с падением производительности при маленьких блоках.
А если там вообще дерево хранится, то полные тормоза, особенно если дерево перестраивалось.
Там может быть блоков на несколько гигабайт. Например, если размер страницы 64К, то 128мб это примерно 1000 блоков, то есть примерно 1000 итераций в цикле будет в конце.
У блоков действительно могут быть заголовки - еще одна причина почему блоки не делятся без остатка на обьекты

Vicshann · 26 июн 2024

Сделал все сам, как обычно

Код (Text):

template<size_t UnitSize, size_t PageSize> struct SStrat

{

static constexpr const size_t UnitsOnPage = PageSize / UnitSize;

static constexpr const size_t BlkLftRange = UnitSize / (1 << std::countr_zero(UnitSize)); // Leftover bytes sequence repeat range (in blocks) // Same as "UnitSize / std::gcd(PageSize, UnitSize)"

struct SApArr

{

size_t TotalInRange;

size_t Arr[BlkLftRange+1];

consteval SApArr(void)

{

size_t Total = 0;

this->Arr[0] = Total;

for(size_t i=1; i <= BlkLftRange; i++)

{

Total += (PageSize * i) % UnitSize;

this->Arr[i] = Total; // Cumulative bytes

}

TotalInRange = Total;

}

} static constexpr const CorrArr;

//------------------------------------------------

// NOTE: Does not considers leftover bytes accumulation error (Actual CumulBytes must be somehow <=)

static size_t GetCumulBytesForBlock(size_t BlockIndex) // Offset For Block

{

size_t BlockSize = (PageSize * BlockIndex);

size_t CumulPages = (BlockIndex * (BlockIndex + 1)) / 2;

size_t CumulBytes = PageSize * CumulPages;

return CumulBytes; // Requires leftover correction!

}

//------------------------------------------------

static size_t GetCumulUnitsForBlock(size_t BlockIndex)

{

size_t CumulUnits = GetCumulBytesForBlock(BlockIndex) / UnitSize;

return CumulUnits; // Requires leftover correction!

}

//------------------------------------------------

static size_t FindBlockForUnit(size_t UnitIndex)

{

size_t FullGroups = UnitIndex / UnitsOnPage;

size_t Discriminant = (8 * FullGroups) + 1;

size_t BlockIndex = ((size_t)std::sqrt(Discriminant) - 1) / 2;

return BlockIndex; // Requires leftover correction!

}

//------------------------------------------------

static size_t FindBlockForOffset(size_t UnitOffset) // This should be used to find correction by a table

{

size_t FullPages = UnitOffset / PageSize;

size_t Discriminant = (8 * FullPages) + 1;

size_t BlockIndex = ((size_t)std::sqrt(Discriminant) - 1) / 2;

return BlockIndex; // Requires leftover correction!

}

//------------------------------------------------

static size_t GetUnitForOffset(size_t UnitOffset)

{

return UnitOffset / UnitSize;

}

//------------------------------------------------

static size_t GetOffsetForUnit(size_t UnitIndex) // As if in a single block

{

return UnitIndex * UnitSize;

}

//------------------------------------------------

static size_t CalcForIndex(size_t UnitIndex, size_t& Idx)

{

size_t uoffs = GetOffsetForUnit(UnitIndex);

size_t cbidx = FindBlockForOffset(uoffs);

size_t aidx = (cbidx % BlkLftRange);

size_t corra = ((cbidx / BlkLftRange) * CorrArr.TotalInRange);

size_t corrb = corra + CorrArr.Arr[aidx];

size_t corrc = corra + CorrArr.Arr[1+aidx];

size_t cbfix = FindBlockForOffset(uoffs + corrc); // The square root again :(

size_t unfix = (GetCumulBytesForBlock(cbfix) - corrb) / UnitSize;

size_t ubidx = UnitIndex - unfix;

Idx = ubidx;

return cbfix;

}

//------------------------------------------------

static int LogTestBlocks(void)

{

size_t BlkIdx = 0;

size_t BlkIdxU = 0;

size_t UIdxInBlk = 0;

size_t BlkNextOffs = PageSize;

size_t BlkNextUnits = UnitsOnPage;

for(size_t uoffs=0,uidx=0;uoffs <= 0xFFFFFFFF;uidx++,UIdxInBlk++,uoffs+=UnitSize)

{

if(uoffs >= BlkNextOffs)BlkNextOffs += (PageSize * (++BlkIdx+1)); // To test FindBlockForOffset

if(uidx >= BlkNextUnits){BlkNextUnits += (PageSize * (++BlkIdxU+1)) / UnitSize; UIdxInBlk = 0;}

size_t ubidx = 0;

size_t cbfix = CalcForIndex(uidx, ubidx);

size_t cbidx = FindBlockForOffset(uoffs);

if(cbidx != BlkIdx)

return -1;

if(cbfix != BlkIdxU)

return -2;

if(ubidx != UIdxInBlk)

return -3;

printf("|%-14u|%-14u|%-14u|%-14u|%-14u|\n", (uint32_t)uidx, (uint32_t)cbidx, (uint32_t)cbfix, ubidx, UIdxInBlk);

}

printf("Done with blk %u",BlkIdx);

return 0;

}

//------------------------------------------------

};

using Strat26 = SStrat<26, 4096>;

Strat26::LogTestBlocks();

Может можно это как-то еще оптимизировать что бы поменьше квадратных корней было?

Войти или зарегистрироваться

Вычисление индекса блока и обьекта в нем по глобальному индексу обьекта

Vicshann Member

f13nd Well-Known Member

rmn Well-Known Member

Vicshann Member

rmn Well-Known Member

alex_dz Active Member

Vicshann Member

Vicshann Member

Войти или зарегистрироваться

Вычисление индекса блока и обьекта в нем по глобальному индексу обьекта

Vicshann Member

f13nd Well-Known Member

rmn Well-Known Member

Vicshann Member

rmn Well-Known Member

alex_dz Active Member

Vicshann Member

Vicshann Member

Быстрый поиск