Указатель в описатель.

njeen · 13 мар 2020

Indy_ сказал(а): ↑

njeen,
Тогда таблица ~2GB и хэш не нужен, так как можно индексировать напрямую.
Нажмите, чтобы раскрыть...

Не нужен, если у вас терабайты ОЗУ и 2гб для вас ничто. Если возможны, скажем, адреса в диапазоне 0 - 200 000 , то в случае массива надо выделять памяти N*200'000 . Но большая часть его пустой будет, т.к использоваться адреса будут сильно не все . Если из 200'000 возможных будет использоваться где-то 200 рандомных, то их можно разместить в хеш таблице размером под 300 записей. Между размером выделенной памяти под 200'000 и 300 есть разница?

Indy_ · 13 мар 2020

UbIvItS,

> имеет смысл взять более глубокую иерархию.

Если под каждую вложенную таблицу выделять ссылку, то размер ссылок будет расти, с увеличением числа таблиц. Так же и тайминг, для каждой ссылки будет выборка и синхрон. Может как то использовать AWE..

njeen,

Как применить хэш к рандому вы не сказали(я ведь спрашивал функцию для примера), твердя одно и тоже

Хэш-функция выбирается для известных значений!?

UbIvItS · 13 мар 2020

Indy_ сказал(а): ↑

Если под каждую вложенную таблицу выделять ссылку, то размер ссылок будет расти, с увеличением числа таблиц.
Нажмите, чтобы раскрыть...

ну-прям супер расти-то некуда == 4 байта адрес даёт ссылку а-ля цепочка из 4 таблиц по 256 записей в каждой и экономия места получается существенной.

Indy_ сказал(а): ↑

ак же и тайминг, для каждой ссылки будет выборка и синхрон.
Нажмите, чтобы раскрыть...

самый большой лаг получается на создание таблиц, при большом разлёте адресов может быть печалька сильная. единственно лечить можно более жадным потреблением озу, то бишь увеличиваем размер таблиц.. но тут уЖО смотри по своей ситуации акий конфиг лучше.

Indy_ сказал(а): ↑

Может как то использовать AWE..
Нажмите, чтобы раскрыть...

что это?

Indy_ · 13 мар 2020

https://docs.microsoft.com/en-us/windows/win32/memory/address-windowing-extensions

njeen · 13 мар 2020

Indy_ сказал(а): ↑

UbIvItS,

njeen,
Как применить хэш к рандому вы не сказали(я ведь спрашивал функцию для примера), твердя одно и тоже
Хэш-функция выбирается для известных значений!?
Нажмите, чтобы раскрыть...

Нет. Функция независима от значений. Инде может придумать абсолютно любую функцию, которая генерирует индекс в диапазоне, лишь бы равномерно по таблице. Как применить - мною описано ранее. Как применить к рандому - тоже (в #16) . И функция тоже дана была как пример.

UbIvItS · 13 мар 2020

Indy_ сказал(а): ↑

https://docs.microsoft.com/en-us/windows/win32/memory/address-windowing-extensions
Нажмите, чтобы раскрыть...

Address Windowing Extensions (AWE) is a set of extensions that allows an application to quickly manipulate physical memory greater than 4GB. Certain data-intensive applications, such as database management systems and scientific and engineering software, need access to very large caches of data. In the case of very large data sets, restricting the cache to fit within an application's 2GB of user address space is a severe restriction. In these situations, the cache is too small to properly support the application.
AWE solves this problem by allowing applications to directly address huge amounts of memory while continuing to use 32-bit pointers. AWE allows applications to have data caches larger than 4GB (where sufficient physical memory is present). AWE uses physical nonpaged memory and window views of various portions of this physical memory within a 32-bit virtual address space.
Нажмите, чтобы раскрыть...

смахивает на некое жёсткое извращение == пользовать пойнтер на 32 бита для сверхбольших датасетов.

Indy_ · 13 мар 2020

njeen,

Я не понимаю о чём вы говорите:

> функцию, которая генерирует индекс в диапазоне

Вот из вчерашнего лога значения и их квадратичная функция:

Код (Text):

007B403B 1110110101011011001000110011111000110110011001

0051BB15 0110100001011111101100000000011010111110111001

007B4048 1110110101011011010101010101000001010001000000

0051BB15 0110100001011111101100000000011010111110111001

007B4055 1110110101011011100001110110001001110000111001

0051BB15 0110100001011111101100000000011010111110111001

Например, примитивная функция для числа (коим является адрес) - возвести число в квадрат и взять у получившегося значения числа на определенных позициях где-нибудь в середине, чтобы размерность укладывалась в диапазон B.
Нажмите, чтобы раскрыть...

- что дальше с этим делать ?

--- Сообщение объединено, 13 мар 2020 ---

UbIvItS,

Для отображения придётся вызывать ядро, что можно делать очень редко, ибо не профайл. Например переключить какие то таблицы. Только что это может дать не знаю.

UbIvItS · 13 мар 2020

Indy_ сказал(а): ↑

Для отображения придётся вызывать ядро, что можно делать очень редко, ибо не профайл. Например переключить какие то таблицы. Только что это может дать не знаю.
Нажмите, чтобы раскрыть...

сколько получается в среднем адресов?

Indy_ · 13 мар 2020

UbIvItS,

~1M для младшей версии IE. Зависит от приложения, позже сниму статистику на чём либо крупном.

UbIvItS · 13 мар 2020

Indy_, вроде, размер не супер критичный == можь одну здоровую таблицу будешь пользовать? хэш главное, чтоб без коллизий был.

njeen · 13 мар 2020

Indy_ сказал(а): ↑

njeen,
Вот из вчерашнего лога значения и их квадратичная функция:

Код (Text):

007B403B 1110110101011011001000110011111000110110011001

0051BB15 0110100001011111101100000000011010111110111001

007B4048 1110110101011011010101010101000001010001000000

0051BB15 0110100001011111101100000000011010111110111001

007B4055 1110110101011011100001110110001001110000111001

0051BB15 0110100001011111101100000000011010111110111001

- что дальше с этим делать ?

--- Сообщение объединено, 13 мар 2020 ---

Нажмите, чтобы раскрыть...

Допустим, у нас в данный момент хеш таблица на 100 записей. Нам нужны из полученных квадратов индексы получить, чтобы были в диапазоне 0-100. Очевидно, что для этого достаточно взять 2 цифры на определенных позициях (возьмем на 5 и 6) .
Тогда в десятичном виде будут взяты цифры для индекса:

value (hex) ^2 (hex) ^2 (dec) полученный индекс
007B403B 3B56C8CF8D99 65243922271641 27
0051BB15 1A17EC01AFB9 28690046103481 10
007B4048 3B56D5541440 65244132283456 28
0051BB15 1A17EC01AFB9 28690046103481 10
007B4055 3B56E1D89C39 65244342295609 29

--- Сообщение объединено, 13 мар 2020 ---

UbIvItS сказал(а): ↑

Indy_, вроде, размер не супер критичный == можь одну здоровую таблицу будешь пользовать? хэш главное, чтоб без коллизий был.
Нажмите, чтобы раскрыть...

не главное . Немного коллизий - это нормально

UbIvItS · 13 мар 2020

для борьбы с коллизиями можно так таблицу замутить..

<>------hash----adr------pointer to description-------<>
то бишь хэш тут есмь индекс таблицы, потом идёт взятый адрес (дабы проверять наличие коллизий).

njeen сказал(а): ↑

Допустим, у нас в данный момент хеш таблица на 100 записей. Нам нужны из полученных квадратов индексы получить, чтобы были в диапазоне 0-100. Очевидно, что для этого достаточно взять 2 цифры на определенных позициях (возьмем на 5 и 6) .
Тогда в десятичном виде будут взяты цифры для индекса:
Нажмите, чтобы раскрыть...

не пойму, а зачем квадраты нужны? и второй коварный вопрос == как выделять место под таблицу, то бишь с запасом иль как ???

njeen сказал(а): ↑

не главное . Немного коллизий - это нормально
Нажмите, чтобы раскрыть...

в куче случаев "немного" -- это уЖО МНОГО

njeen · 13 мар 2020

UbIvItS сказал(а): ↑

для борьбы с коллизиями можно так таблицу замутить..
Нажмите, чтобы раскрыть...

Что-что? Какой ещё борьбы? Коллизии неизбежны, для каждого способа организации хеш таблицы есть метод работы с ними. В в случае открытого хеширования это списки элементов, у которых совпадает вычисленный номер ячейки.

UbIvItS сказал(а): ↑

не пойму, а зачем квадраты нужны? и второй коварный вопрос == как выделять место под таблицу, то бишь с запасом иль как ???
в куче случаев "немного" -- это уЖО МНОГО
Нажмите, чтобы раскрыть...

Возведение в квадрат - это известный метод для получения получения хеш функции, которая равномерно распределяет все значения по таблице. Если этого не делать, значения будут скаплвиваться в опред. местах и коллизий будет очень много.

"второй коварный вопрос == как выделять место под таблицу, то бишь с запасом иль как ???" - вы вообще предыдущие посты читаете? Идеальный метод начального размера таблицы взятия мне неизвестен, предполагаю первое значение размера наугад.

Indy_ · 13 мар 2020

njeen,

Спасибо за наглядный пример. Но как я уже много раз повторял, выбор функции в данном случае ручной по входным(известным) значениям, уже после получения всех адресов(после трассировки, а данная оптимизация для неё и нужна). Эти адреса из лога, их идёт непрерывный поток при трассировке.

UbIvItS,

> в куче случаев "немного" -- это уЖО МНОГО

Гипотетически в данном случае если есть коллизии, то пришлось бы каждый адрес помечать(а это затраты на память), иначе после ошибки всё упало бы.

Foxit Reader, 6.1
24 минуты на трассировку до появления гуя.
Память апп 73MB с маркировкой адресов данным механизмом.
4 минуты открытие доки..
1699477
~1.6Mips

--- Сообщение объединено, 13 мар 2020 ---

Плохой пример выбрал. Слишком долго оно варится". Забыл строку коментнуть и есчо ждать пол часа; два запуска ~ час.. Даже крипторы быстрее заводятся..

Но это и есть суть задачи. Что бы перейти от копирования в статик буфер на каждой итерации к бинарной трансляции.

Запуск без сохранения Ip:

16MB

Общее количство инструкций при запуске гуя(что бы сравнить выше) 2.729.380.014

~ 2.542GBips

--- Сообщение объединено, 14 мар 2020 ---

Есчо один запуск, забыл про время

Разница по времени, без использования данного механизма:

24мин/25.. погрешность, разницы нет.

Получается что механизм трансляции не влияет на результат, что очень странно. При таком огромном числе инструкций. Надо подумать.

UbIvItS · 14 мар 2020

njeen сказал(а): ↑

Что-что? Какой ещё борьбы? Коллизии неизбежны, для каждого способа организации хеш таблицы есть метод работы с ними. В в случае открытого хеширования это списки элементов, у которых совпадает вычисленный номер ячейки.
Нажмите, чтобы раскрыть...

это с чего они неизбежны? вероятность коллизий падает по 2ⁿ, где энн есмь длина хэша.

njeen сказал(а): ↑

Возведение в квадрат - это известный метод для получения получения хеш функции, которая равномерно распределяет все значения по таблице. Если этого не делать, значения будут скаплвиваться в опред. местах и коллизий будет очень много.
Нажмите, чтобы раскрыть...

я уже упоминал быстрые алгосы хэша ==запруженность разрешима чрез них.

njeen сказал(а): ↑

Идеальный метод начального размера таблицы взятия мне неизвестен, предполагаю первое значение размера наугад.
Нажмите, чтобы раскрыть...

нужно ориентироваться по размеру исследуемого файла == к примеру, 20% от него.

--- Сообщение объединено, 14 мар 2020 ---

Indy_, а не легче ли не все потоки осилить за раз, а только один поток за сессию?

Indy_ сказал(а): ↑

Получается что механизм трансляции не влияет на результат, что очень странно. При таком огромном числе инструкций. Надо подумать.
Нажмите, чтобы раскрыть...

1. выборка маловата.
2. тут ещё надо смотреть процент загрузки проца. к примеру, в одном случае получается получить 500 000нс доступа к процу каждую секунду, а в другом всего лишь 25 000.
3. также имеется сильная зависимость от набора используемых апи.

Indy_ · 14 мар 2020

UbIvItS

> я уже упоминал быстрые алгосы хэша ==запруженность разрешима чрез них.

Что вы всё про хэши, вы предлагаете накописть некоторую часть адресов и как то составить для них хэш функцию.. такое вообще возможно ?

> не легче ли не все потоки осилить за раз, а только один поток за сессию?

Приложение должно транслироваться(бинарная трансляция), а не трассироваться как сейчас. Из за копирований инструкций в буфера такие тормоза. А для этого необходимо реализовать две максимально быстрые функции - получение описателя по указателю(те когда происходит ветвление нужно найти соответствие в собранном коде) и синхронное выделение памяти для сборки.

--- Сообщение объединено, 14 мар 2020 ---

Можно ли имея некоторое большое количество адресов составить для них хэш функцию автоматикой ?

Иначе хэши в данной задаче не применимы.

--- Сообщение объединено, 14 мар 2020 ---

> один поток за сессию?

Как это, будет ведь деадлок.

njeen · 14 мар 2020

UbIvItS сказал(а): ↑

это с чего они неизбежны? вероятность коллизий падает по 2ⁿ, где энн есмь длина хэша.
Нажмите, чтобы раскрыть...

Я не знаю, что это за формула, но отображение б0льшего множества в меньшее означает вероятность коллизий > 0 . Если вероятность ненулевая, то получение на вход потенциально бесконечно большого множества входных различных входных данных означает неизбежность коллизии.

Indy_ сказал(а): ↑

UbIvItS
Можно ли имея некоторое большое количество адресов составить для них хэш функцию автоматикой ?
Иначе хэши в данной задаче не применимы.
Нажмите, чтобы раскрыть...

Можно только оценить количество накопленных адресов и основываясь на этом выбрать размер таблицы. При открытом хешировании средняя длина списков элементов в ячейках равняется N/B, где N - количество размещаемых элементов, B - количество ячеек таблицы. И опять же, при этом типе хеширования (открытом) необходимость увеличения таблицы наступает когда возникает ситуация N > 2B ; нужно стремиться к тому, чтобы B = 2N ориентировочно при формировании таблицы.

Составить функцию - да, основываясь на текущем B . (Здесь опять я с возведением в квадрат и взятием б0льшего количества чисел из середины получившегося числа =) )

Indy_ · 14 мар 2020

njeen,

Можно вопрос общего плана. Вы понимаете о чём идёт речь ?

По мойму нет, раз игнорите всё сказанное выше. Какой прок мне от ваших хэшей, если функцию от последовательности невозможно рассчитать автоматически ?

njeen · 14 мар 2020

Indy_ сказал(а): ↑

njeen,
Можно вопрос общего плана. Вы понимаете о чём идёт речь ?
Нажмите, чтобы раскрыть...

Кмк, да. У вас есть некоторый код, который выдает поток адресов из опред. диапазона, и вы каждому хотите соответствие. В массиве перебор слишком долгий, поэтому вы задали вопрос, как это можно улучшить. Но упорно не хотите понять хеш таблицы.
Чем вам коррекция функции хеширования в зависимости от числа встреченных адресов не автоматика?

UbIvItS · 14 мар 2020

Indy_ сказал(а): ↑

Что вы всё про хэши, вы предлагаете накописть некоторую часть адресов и как то составить для них хэш функцию.. такое вообще возможно ?
Нажмите, чтобы раскрыть...

ну-так, принцип бт в чём? по ходу дела собираешь адреса/куски кода и переделываешь их в нужную форму. из тех адресов, что за кэшировал, лабаешь хэши. даже можешь залабать хэши из уже кэшированных кусков кода, если такое по нраву Возьми исходники виртуалбокса и/ль кему, там имеется динамическая рекомпиляция.

njeen сказал(а): ↑

Я не знаю, что это за формула, но отображение б0льшего множества в меньшее означает вероятность коллизий > 0 . Если вероятность ненулевая, то получение на вход потенциально бесконечно большого множества входных различных входных данных означает неизбежность коллизии.
Нажмите, чтобы раскрыть...

если быть точней, хэш отображает строку из энн бит в строку из эмм бит, где энн больше эмм. среднее кол-во совпадений хэша при отображение ВСЕХ строк длины энн == 2 в степени энн делить на два в степени эмм. ключевым словом тут является "ВСЕХ". обычно кол-во вхождений в таблицу гораздо меньше, чем кол-во возможных значений хэша. Тч в таблице никаких коллизий хэша не допускается от слова СОВСЕМ.

njeen сказал(а): ↑

Можно только оценить количество накопленных адресов и основываясь на этом выбрать размер таблицы. При открытом хешировании средняя длина списков элементов в ячейках равняется N/B, где N - количество размещаемых элементов, B - количество ячеек таблицы. И опять же, при этом типе хеширования (открытом) необходимость увеличения таблицы наступает когда возникает ситуация N > 2B ; нужно стремиться к тому, чтобы B = 2N ориентировочно при формировании таблицы
Нажмите, чтобы раскрыть...

N в идеале должно быть == кол-ву строк в таблице, а кол-во столбцов вариативно (не на стадии исполнения, конечно). второй момент, если мы говорим о статичных кодах, то кол-во накопленных адресов не может превышать размер бина. но даже в случае всяких тамо хитроЖО.. протекторов и морфах вполне можно задавать размер таблицы на основе размера подопытного бин файла.

njeen сказал(а): ↑

Составить функцию - да, основываясь на текущем B . (Здесь опять я с возведением в квадрат и взятием б0льшего количества чисел из середины получившегося числа =) )
Нажмите, чтобы раскрыть...

это довольно силовой приём.. так можно ещё и модульную арифу вспомнить но зачем так напружать проц(???), если легковесные хэши на +/-/ИЛИ/КСОР/И/СДВИГ позволяют получать тот же результат, но быстрей. например, такая таблица вполне робитЪЪЪ..

<>-----hash----id of hash func-----adr-----pointer to object-----<>

Войти или зарегистрироваться

Указатель в описатель.

njeen Active Member

Indy_ Well-Known Member

UbIvItS Well-Known Member

Indy_ Well-Known Member

njeen Active Member

UbIvItS Well-Known Member

Indy_ Well-Known Member

UbIvItS Well-Known Member

Indy_ Well-Known Member

UbIvItS Well-Known Member

njeen Active Member

UbIvItS Well-Known Member

njeen Active Member

Indy_ Well-Known Member

Вложения:

Icl.asm

UbIvItS Well-Known Member

Indy_ Well-Known Member

njeen Active Member

Indy_ Well-Known Member

njeen Active Member

UbIvItS Well-Known Member

value (hex)	^2 (hex)	^2 (dec)	полученный индекс
007B403B	3B56C8CF8D99	65243922271641	27
0051BB15	1A17EC01AFB9	28690046103481	10
007B4048	3B56D5541440	65244132283456	28
0051BB15	1A17EC01AFB9	28690046103481	10
007B4055	3B56E1D89C39	65244342295609	29

Войти или зарегистрироваться

Указатель в описатель.

njeen Active Member

Indy_ Well-Known Member

UbIvItS Well-Known Member

Indy_ Well-Known Member

njeen Active Member

UbIvItS Well-Known Member

Indy_ Well-Known Member

UbIvItS Well-Known Member

Indy_ Well-Known Member

UbIvItS Well-Known Member

njeen Active Member

UbIvItS Well-Known Member

njeen Active Member

Indy_ Well-Known Member

Вложения:

Icl.asm

UbIvItS Well-Known Member

Indy_ Well-Known Member

njeen Active Member

Indy_ Well-Known Member

njeen Active Member

UbIvItS Well-Known Member

Быстрый поиск