Поиск строки в файле (быстрее, ещё быстрее :))

green · 16 май 2010

galileopro
str = "aaab";
substr = "aab";

galileopro · 16 май 2010

Код (Text):

var Str, subStr:String;

i, j, subStrLen : integer;

begin

Str := 'aaab';

subStr := 'aab';

i := 1;

j := 1;

subStrLen := length(subStr);

repeat

if j > 1 then begin

if (subStr[j] = Str[i]) then inc(j)

else j := 1;

end

else begin

if (subStr[j] = Str[i])and(subStr[subStrLen] = Str[i + subStrLen - j]) then inc(j)

else j := 1;

end;

inc(i);

until (j = subStrLen + 1) or ( i > length(Str));

writeln( 'Index of SubString: ', i - j + 1 );

Pavia · 16 май 2010

galileopro
Ваш алгоритм не верен. Он не учитывает возможности нахождения в нескольких состояниях. Пример привелgreen

Конечно можно построить DFA. Но это только замедлит поиск у него полно своих проблем.

PS. Занимался на досуге оптимизацией конечных автоматов. Пришел к выводу что можно заточить под определенные классы регулярных выражений.

galileopro · 16 май 2010

Pavia, а сможете привести пример, на котором упадет код из 62 поста? Ради интереса и понимания особых ситуаций.

Pavia · 16 май 2010

galileopro
Ты его вначале сам погоня. Выход из цикла не определен.

Ну добавил ты проверку на последний символ а на промежуточные?
Str := 'aaaabb';
subStr := 'aaabb';

Код (Text):

if (subStr[j] = Str[i])and(subStr[subStrLen] = Str[i + subStrLen - j]) then inc(j)

else j := 1;

тут не обязательно 1 из за повторяющихся символов она может почти любым.

За O(n) можно сделать. Но размер кэш ограничен отсюда имеем ограненный проигрыш из-за кэш промохов.
http://algolist.manual.ru/search/esearch/aut.php
http://algolist.manual.ru/search/esearch/

galileopro · 16 май 2010

Так посередине все нормально. Оно посчитало все Ок для

Str := 'aaaabb';
subStr := 'aaabb';
Нажмите, чтобы раскрыть...

Я проверяю 1 символ искомой подстроки и последний. Если они совпали, то я делаю inc(j) и дальше в эту ветку оно уже не зайдет. Оно будет проверять, фактически, символы между 1 и последним. Там уже без вариантов: если хоть один не совпал, то j:=1. Я погонял, пока оно не свалилось. И, кстати, про кеширование. Как раз для этой задачи очень подходит

Код (Text):

PREFETCHT0 byte ptr [eax]

- поместить строку в кэш. Ведь если сама искомая подстрока небольшая, то мы можем грузить в кэш части строки, в которой мы ищем эту подстроку и искать, затем грузить следующий кусок. Если данные расположены на нескольких логических или физических дисках, то по этому алгоритму можно их читать и обрабатывать порциами параллельно.

Pavia · 16 май 2010

galileopro

Так посередине все нормально. Оно посчитало все Ок для Str := 'aaaabb';subStr := 'aaabb';
Нажмите, чтобы раскрыть...

7 позиция это OK? Должна быть 2.

galileopro · 16 май 2010

Можно переделать этот алгоритм так чтобы находил правильно. Но тогшда там в худшем случае далеко не линейное время будет, а что-то вроде n*m. Так как вот в таких ситуациях прийдется заново начинать просматривать со 2 символа, с 3-го и так пока нам не встретится буковка, отличная от a, тогда уже можно двигаться дальше. Спасибо за пример.

Войти или зарегистрироваться

Поиск строки в файле (быстрее, ещё быстрее :))

green New Member

galileopro Олег

Pavia Well-Known Member

galileopro Олег

Pavia Well-Known Member

galileopro Олег

Pavia Well-Known Member

galileopro Олег

Войти или зарегистрироваться

Поиск строки в файле (быстрее, ещё быстрее :))

green New Member

galileopro Олег

Pavia Well-Known Member

galileopro Олег

Pavia Well-Known Member

galileopro Олег

Pavia Well-Known Member

galileopro Олег

Быстрый поиск