Нахождение количества общих элементов 2 массивов

Black_mirror · 5 мар 2010

Serg50
Можете назвать отношение средней длины списка ключей к количеству действительно используемых? А еще лучше статистику средней встречаемости ключа по всем молекулам файла. Просто переход к таблице ключ=>список молекул может сделать суммирование более эффективным если средняя длина списка будет существенно менее общего числа записей в файле.

Black_mirror · 5 мар 2010

Serg50
Ваш алгоритм решает задачу за время N*M*k, но можно его улучшить до n*M*k.
N - число эталонных записей
M - число тестируемых записей
k - среднее число ключей на одну запись
n - среднее число эталонных записей на один ключ

Код (Text):

#include <time.h>

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

void T(char*s)

{

static clock_t t;

clock_t n=clock();

if(s)

printf("%s %.3f\n",s,(n-t)/(double)CLOCKS_PER_SEC);

t=n;

}

#define maxid 1000000 //количество id

#define maxkey 1000000 //максимальное количество ключей

#define avgkey 100 //среднее количество ключей связанное с одним id

int* keys[maxid];//списки ключей связанных с заданным id

int* ids[maxkey];//списки id связанных с данным ключом

int nkeys[maxid];//длины списков ключей

int nids[maxkey];//длины списков id

int tans[maxid];//массив для подсчёта числа общих элементов

int main()

{

int id,key,total,*buf,*kl,k,i,id2,*il;

T(0);

//виртуальная генерация для подсчёта необходимого количества памяти

for(key=0;key<maxkey;key++)

nids[key]=0;

srand(987654321);

for(id=0,total=0;id<maxid;id++)

{

for(key=rand()%maxkey/avgkey,nkeys[id]=0;key<maxkey;)

{

nids[key]++;

nkeys[id]++;

total++;

key+=rand()%(2*maxkey)/avgkey+1;

}

}

//создание массива id=>список ключей

buf=malloc(total*sizeof(*buf));

srand(987654321);

for(id=0;id<maxid;id++)

{

keys[id]=buf;

for(key=rand()%maxkey/avgkey;key<maxkey;)

{

*buf++=key;

key+=rand()%(2*maxkey)/avgkey+1;

}

}

//создание массива key=>список id

buf=malloc(total*sizeof(*buf));

for(key=0;key<maxkey;key++)

{

ids[key]=buf;

buf+=nids[key];

}

for(id=0;id<maxid;id++)

{

kl=keys[id];

for(k=0;k<nkeys[id];k++)

{

key=kl[k];

*ids[key]++=id;

}

}

for(key=0;key<maxkey;key++)

ids[key]-=nids[key];

T("gen ");

//перебор тестовых id2

for(id2=0;id2<maxid;id2++)

{

//обнуление массива похожести на эталоны

memset(tans,0,maxid*sizeof(*tans));

//перебор списка ключей связанных с тестовым id2

kl=keys[id2];

for(k=0;k<nkeys[id2];k++)

{

key=*kl++;

//перебор списка id связанных с данным ключoм и увеличение счётчика общих элементов в массиве tans

il=ids[key];

for(i=0;i<nids[key];i++)

tans[il[i]]++;

}

//преобразование числа общих элементов в коэффициенты Танимото

// for(id=0;id<maxid;id++)

// tans[id]/(nkeys[id]+nkeys[id2]-tans[id]);

printf("\r%d",id2+1);//чтобы знать что программа работает

}

printf("\n");

T("calc ");

return 0;

}

На сравнение массива в миллион элементов с самим собой при среднем числе ключей 100 из миллиона возможных у программы ушло 1878 секунд, то есть чуть больше 31 минуты. То есть для массива в 5000000 ожидаемое время работы должно быть в 25 раз больше или около 13 часов. Правда если реальное число различных ключей будет 20000, то эта программа станет работать в 50 раз медленнее и тоже будет 3 с половиной недели считать. Но есть резервы для улучшения:
В частности, можно производить суммирование не более чем по 255 строк в байтовый массив, а потом добавлять его к массиву tans.
Еще, списки id которые длинее чем N/32 можно заменять на битовые массивы, читать их по 1 байту, расширять его биты в байты загружая соответствующие константы в mmx регистры из таблицы на 256 элементов, и суммировать сразу по 8 байт. Еще можно читать и суммировать таким образом сразу по 3-4 битовые строки.
Еще возможна всякая оптимизация с подсчётом сразу нескольких сумм, с упорядочиванием загрузки строк ключей, и прочие зависимые от кеша штуки.

qqwe · 6 мар 2010

Serg50

Как я говорил, этот метод я уже проверял, и он показал себя на 30% медленнее чем подсчет совпадений слиянием.
Нажмите, чтобы раскрыть...

при количестве ключей значительно меньшем, чем их предельный диапазон, как уже сказал Black_mirror, такое вполне возможно. кроме того, тут еще от подхода зависит. возможно, он у вас был не лучший. например

Код (Text):

#include <time.h>

#include <stdio.h>

#define _CRT_RAND_S

#include <stdlib.h>

#define TESTS_N 100

#define maxid 0x400000 //количество id

char map[maxid / 8];

unsigned int id1[maxid];

unsigned int id2[maxid];

void getABC(unsigned int* ID1, unsigned int* ID2, int* a, int* b, int* c){

int id;

memset(map, 0, maxid / 8);

for(*a = 0; *ID1 != 0; ID1++, *a++){

id = *ID1;

map[id >> 3] |= 1 << (id & 7);

}

for(*b = 0, *c = 0; *ID2 != 0; ID2++, *b++){

id = *ID2;

*c += (map[id >> 3] >> (id & 7)) & 1;

}

}

int main()

{

unsigned int maxkey, tmp;

int i, j, a, b, c;

clock_t t0, t, t_all, t_max;

t_max = t_all = 0;

for(j = 0; j < TESTS_N; j++){

printf("- %d\n", j);

rand_s(&maxkey);

maxkey %= maxid;

for(i = 0; i < maxkey; i++){

rand_s(&tmp);

tmp %= maxid - 1;

id1[i] = tmp + 1;

}

id1[i] = 0;

rand_s(&maxkey);

maxkey %= maxid;

for(i = 0; i < maxkey; i++){

rand_s(&tmp);

tmp %= maxid - 1;

id2[i] = tmp + 1;

}

id2[i] = 0;

t0 = clock();

getABC(id1, id2, &a, &b, &c);

t = clock() - t0;

t_all += t;

if(t > t_max)

t_max = t;

}

printf("max time = %.4fs, avg time = %.4fs\n",

((double)t_max)/(double)CLOCKS_PER_SEC,

((double)t_all/(double)TESTS_N)/(double)CLOCKS_PER_SEC

);

return 0;

}

скомпиленный с -O2 , при 100 (TESTS_N. можете сделать больше себе. мне не охота было ждать) подсчетах a, b и c со случайными наборами ключей в списках id1 и id2 выдало на моем не самом быстром компе

max time = 0.0940s, avg time = 0.0464s
Нажмите, чтобы раскрыть...

а, да, сортировать ключи тут не надо

Black_mirror · 6 мар 2010

Попробовал разбить самый внутренний цикл на две части, чтобы обновление массива tans происходило блоками не вылезающими за пределы кеша. Но при моих параметрах ускорение было всего в два раза. При сужении диапазона различных ключей выигрыш от такого разбиения может быть более существенным, а может суммирование битовых строк окажется лучшим вариантом. Вообще мой алгоритм должен работать за время пропорциональное суммарному размеру всех возможных пересечений списков признаков, а не объединений как было в алгоритме предложенном автором. То есть этот алгоритм очень хорошо работает в случае если множества существенно друг на друга не похожи. Правда из-за произвольного доступа к памяти скорость вычислений падает в сотню, а может и в тысячу раз. Если индексы слишком сильно разбросаны, то для увеличения ячейки tans на единицу нам приходится читать целую строку кеша, которая вряд ли будет использована повторно и потом её придётся записывать обратно.
Но это всё пока абстрактные рассуждения, для более конкретных нужно знать:
количество эталонных образцов
количество тестируемых образцов
фактическое число различных ключей
среднее число ключей в эталонных образцах
среднее число ключей в тестируемых образцах

Serg50 · 9 мар 2010

Спасибо за обсуждение! Предложенные алгоритмы посмотрю сегодня по дороге домой...

Но это всё пока абстрактные рассуждения, для более конкретных нужно знать:
Нажмите, чтобы раскрыть...

Если не абстрактно, то такого рода сравнение используется для нескольких целей, и наиболее времяемкое из них сравнение виртуальной библиотеки(предполагаемых к синтезу соединений) со уже имеющимися реальными продуктами(а зачастую еще и с имеющимися в продаже) - цель сделать непохожие на уже имеющиеся соединения. Для этого отбираются соединения с Tan менее чем заданное с эталонным. При этой задаче:

количество эталонных образцов- 5000000-8000000(если еще и продажные)
количество тестируемых образцов - 50000 - 1500000(зависит от библиотеки)
фактическое число различных ключей
Ни разу не считал... Вообще то говоря чем больше тем лучше - иначе дизайн библиотеки был не очень. Ведь количество ключей в какой-то мере отражает разнообразие задуманных соединений
среднее число ключей в эталонных образцах
среднее число ключей в тестируемых образцах
Тоже ни разу не определял... Могу лишь посмотреть максимально количество. Так тек. склад разбит на 4 куска, где макс. количеста включей на запись - 419, 425, 256 и 295. Но это максимальное.

qqwe · 9 мар 2010

Serg50
судя по описанию и числам - задача полностью и целиком коммерческая. и на правильном алгосе ктото тоимеет неплохой профит. может быть парень из калифорнии, но явно не я. чувствую себя лохом и желание помогать левым людям какбы само собой испаряется. хотя алгос можно ускорить еще раза в 1.5-2. но это уже будете делать вы сами. должны ж вы хоть какуюто работу делать сами?

Serg50 · 9 мар 2010

qqwe сказал(а):

Serg50
судя по описанию и числам - задача полностью и целиком коммерческая. и на правильном алгосе ктото тоимеет неплохой профит. может быть парень из калифорнии, но явно не я. чувствую себя лохом и желание помогать левым людям какбы само собой испаряется. хотя алгос можно ускорить еще раза в 1.5-2. но это уже будете делать вы сами. должны ж вы хоть какуюто работу делать сами?
Нажмите, чтобы раскрыть...

Понял правильно - задача коммерческая, но профит делается не на алгоритме, а на соединениях и трудозатраты по их изготовлению несравнимы с расчетами. Так, что у меня нет и не было желания заработать на ваших советах. Тем более, что в общем то имеющийся набор программ меня более менее устраивает. Просто задача показалась интересной для обсуждения.

Насчет "должны ж вы хоть какуюто работу делать сами?" - я в первую очередь отвечаю за то как синтезировать эти продукты и за это получаю деньги. Я знаю как их сделать. А то, что я занялся дизайном библиотек(это жаргон , это уже скорее хобби. Так что не надо мне приписывать мотивы котрых не было.

qqwe · 9 мар 2010

Serg50

но профит делается не на алгоритме, а на соединениях и трудозатраты по их изготовлению несравнимы с расчетами. Так, что у меня нет и не было желания заработать на ваших советах. Тем более, что в общем то имеющийся набор программ меня более менее устраивает.
Нажмите, чтобы раскрыть...

фигня. фигня. даже если удастся из 3х недель сделать 3 дня - это _очень_ выгодная вещь для дела. это либо переведет некоторые вещи из разряда возможных только теритически в разряд практических, либо поможет сэкономить на дорогом оборудовании и затратам на его обслуживание.
а то что вы говорите - я не я и коза не моя - обычное дело. так все говорят в подобных случаях. мол хобби - искать дубликаты среди мильярдов чисел. жутко интересно.

Просто задача показалась интересной для обсуждения.
Нажмите, чтобы раскрыть...

задача букварная.

насчет синтеза. вы ведь чистоту продукта проверяете, процент выхода? спектрограммы сравниваете? а говорите хобби

d2k9 · 9 мар 2010

Если бы ТС внятно сформулировал ТЗ я бы тоже по приколу поразмышлял над ним, т.к. нахождение количества общих элементов 2 массивов является примитивном действием уровня 9-11 класс средней школы... Интересно, в чём там проблемы?
К примеру, есть mas1: array of integer; mas2: array of integer? И среди них надо найти одинаковые числа, а затем вывести их? Если я правильно понял задачу, профит готов в уме

Serg50 · 9 мар 2010

d2k9 сказал(а):

... нахождение количества общих элементов 2 массивов является примитивном действием уровня 9-11 класс средней школы...
Нажмите, чтобы раскрыть...

Проблема в количестве

qqwe
Ну если вы так уверены в моих корыстных намерениях воздержитесь от обсуждения. Ибо доказать, что я не верблюд, тем более в рамках форума мне сложно. Да и лень

qqwe · 9 мар 2010

Serg50

Ну если вы так уверены в моих корыстных намерениях воздержитесь от обсуждения.
Нажмите, чтобы раскрыть...

ладно, мне тоже лениво. тем более, что после драки.. (вы не менеджер, не?)

впрочем, если вам эта тема интересна - скажите, как несложно ускорить алгоритм в 1.5-2 раза? только немного изменив алгоритм? (может и больше, чем в 2 раза. я не проверял)

d2k9 · 9 мар 2010

Serg50
И что, сложно многопоточность реализовать с привязкой для каждого ядра процессора или при SMP на каждый проц? Какое кол-во элементов?

qqwe · 9 мар 2010

d2k9

Какое кол-во элементов?
Нажмите, чтобы раскрыть...

на предыдущей странице написано

И что, сложно многопоточность реализовать с привязкой для каждого ядра процессора или при SMP на каждый проц?
Нажмите, чтобы раскрыть...

многопоточность тут не столько, тк задача не вычислительная, а на быстое ворочанье объемами памяти. те память тут станет узким местом. те если эта задача таки не просто хобби-"чтобы дурь в голову не лезла", то можно было бы и небольшой кластер организовать на более дешевых компах. но в случае хобби - это скучные глупости. а вот ускорить алгос в 2 раза, да - и интересно, и несложно.

d2k9 · 10 мар 2010

Большой объём памяти говорите? И что тогда мешает взять Core i9 с 128Гб RAM? Только я не вижу для чего столько оной - у меня это заняло 2.35Гб, на 2.1Ггц Core 2 Duo на ноутбуке заполнение 2х массивов рандомными значениями в 2х тредах произошло за 1 сек.

Код (Text):

type

PKey = ^TKey;

TKey = packed array [1 .. 200] of Integer;

PMyArr = ^TMyArr;

TMyArr = packed array [1 .. 1500000] of TKey;

var

mas1: PMyArr;

mas2: PMyArr;

begin

GetMem(mas1, SizeOf(TMyArr));

GetMem(mas2, SizeOf(TMyArr));

TMasFill.Create(False, mas1);

TMasFill.Create(False, mas2);

...

end.

Надо учиться указатели использовать вместе с упакованными типами данных
Сей сэмпл на дельфи легко можно переделать на Си. Хотя у ТС видно проблема со сравнением массивов. Будет время напишу.

Serg50 · 10 мар 2010

qqwe сказал(а):

.. (вы не менеджер, не?)
Нажмите, чтобы раскрыть...

Специально в словарь залез - ответ нет. А как вы понимаете "менеджер"? А программирование это действительно хобби, когда устаю от химии с ее малой предсказуемостью.

впрочем, если вам эта тема интересна - скажите, как несложно ускорить алгоритм в 1.5-2 раза? только немного изменив алгоритм? (может и больше, чем в 2 раза. я не проверял)
Нажмите, чтобы раскрыть...

Алгоритм вообще? Тот которым пользуюсь я? Тот который привели вы?

Кстати я посмотрел тот который привели вы. Да я использовал практически такой же, но не стал заморачиваться с упаковкой бит, и у меня был map[maxid] где использовался только 0 бит. Но этот алгоритм - это сравнение всего 2 элементов из массивов ID1 и ID2. Соотвественно получается, что мы будем иметь для типовой. и не самой большой задачи 200000*5000000*0.046s = 1470 лет Это конечно утрированно, но показывает, что при такой постановке задачи, важна оптимизация кода, а не только алгоритма.

У меня всеже остаются сомнения, что мы правильно друг друга понимаем. А задача конечно элементарная, и именно ее объем делает ее не очень то тривиальной.

Serg50 · 10 мар 2010

Black_mirror сказал(а):

...На сравнение массива в миллион элементов с самим собой при среднем числе ключей 100 из миллиона возможных у программы ушло 1878 секунд, то есть чуть больше 31 минуты. То есть для массива в 5000000 ожидаемое время работы должно быть в 25 раз больше или около 13 часов. Правда если реальное число различных ключей будет 20000, то эта программа станет работать в 50 раз медленнее и тоже будет 3 с половиной недели считать...
Нажмите, чтобы раскрыть...

Идея любопытная, но к сожалению сравнение на себя это частная задача, чаще приходится делать что то вроде 200000*5000000, а в этом случае массив Tan буде слишком большим . Массив key-ID, я как то не рассматривал, наверное потому что его еще нужно сделать.

Я посчитал среднее количество ключей в некотром куске, и их оказалось ~3500 на 250000 ID. Причем в первом же 50000 куске 3000 из них присутстворвали. То есть количество реально используемых ключей значительно меньше возможного. И во всем большом вряд ли оно будет больше 5000. То есть есть возможность перед сравнением их заменить на другие сузив их пространство. Надо подумать, что это может дать. Спасибо за наводку - мне и голову не приходило проверить сколько из них реально используется

d2k9 · 10 мар 2010

Serg50
Держите Профит http://88.208.217.213/mas_count.rar, с вас пиво
Протестите сколько времени займёт сравнение массивов: у меня 3Гб памяти не хватило для хранения хэшей. Ну ещё можно будет многопоточность добавить для сравнения хэшей, сейчас она только для заполнения массивов и вычисления хэшей в процессе. Потом сырцы выложу.
Алгоритм: 2 массива, в каждом 1 .. 1500000 элементов, каждый элемент содержит в себе 200 подэлементов, также имеется 2 массива для хэшей (1 .. 1500000 элементов). При старте массивы заполняются рандомными значениями и сразу же от этого берётся хэш, который добавляется в массив хэшей. Затем запускается тред, в котором идёт сравнения 2х массивов хэшей, здесь надо сделать разделение массивов дабы был не один тред, а несколько. Пробуй те короче

d2k9 · 10 мар 2010

З.Ы. http://88.208.217.213/mas_count.rar

Black_mirror · 10 мар 2010

Serg50
Вообще-то у меня строки массива tan генерятся по одной, и там где она сформированна можно выполнять любую их обработу. К тому же у меня можно сравнивать и различные массивы, правда один из них должен храниться ввиде id->keys, а другой key->ids. Массив keys->id можно кстати заменить на битовый, потом преобразовывать биты в отдельные байты и суммировать их используя MMX или SSE. Даже если там будет один единичный бит на сотню нулей, это будет в 10-30 раз быстрее вашего безобразия из первого сообщения. А в теории алгоритм может быть быстрее вашего в "число уникальных ключей"/"среднее число ключей в строке". Но случайный доступ к памяти его раз в 100 тормозит, хотя версия с разбиением циклов может быть не совсем плоха для ваших данных.

Serg50 · 10 мар 2010

d2k9 сказал(а):

З.Ы. http://88.208.217.213/mas_count.rar
Нажмите, чтобы раскрыть...

The exception unknown software exception (0x0eedfade) occured in the application at location 0x7c59bcb1

Войти или зарегистрироваться

Нахождение количества общих элементов 2 массивов

Black_mirror Active Member

Black_mirror Active Member

qqwe New Member

Black_mirror Active Member

Serg50 New Member

qqwe New Member

Serg50 New Member

qqwe New Member

d2k9 Алексей

Serg50 New Member

qqwe New Member

d2k9 Алексей

qqwe New Member

d2k9 Алексей

Serg50 New Member

Serg50 New Member

d2k9 Алексей

d2k9 Алексей

Black_mirror Active Member

Serg50 New Member

Войти или зарегистрироваться

Нахождение количества общих элементов 2 массивов

Black_mirror Active Member

Black_mirror Active Member

qqwe New Member

Black_mirror Active Member

Serg50 New Member

qqwe New Member

Serg50 New Member

qqwe New Member

d2k9 Алексей

Serg50 New Member

qqwe New Member

d2k9 Алексей

qqwe New Member

d2k9 Алексей

Serg50 New Member

Serg50 New Member

d2k9 Алексей

d2k9 Алексей

Black_mirror Active Member

Serg50 New Member

Быстрый поиск