Удаление дубликатов строк из файла

Asterix · 26 дек 2004

Для меня оказалось проще всего реализовать это на perl,

но хотелось бы сравнить с реализациями на PHP и Python,

кто хочет реализовать на C/C++ или asm - дерзайте, тоже

будет интересно сравнить.

Код (Text):

#!/usr/bin/perl -w

open(IN, "< in.txt") or die "Can't open file: $!";

open(OUT, "+> out.txt") or die "Can't open file out.txt for writing: $!";

@input = <IN>;

close(IN);

%seen = ();

foreach $item (@input)

{

unless ($seen{$item})

{

$seen{$item} = 1;

print OUT $item;

}

}

close(OUT);

Asterix · 26 дек 2004

То же самое на Python'е:

Код (Text):

#! /usr/bin/env python

input = open('in.txt', 'r')

output = open('out.txt', 'w')

linesarray = input.readlines()

input.close()

seen = []

for i in range(len(linesarray)):

if seen.count(linesarray[i]) == 0:

seen.append(linesarray[i])

output.write(linesarray[i])

output.close()

Asterix · 26 дек 2004

А что на PHP никто не программирует или боимся проиграть perl'у?

Может тогда кто на java напишет..?

vinnie_pooh · 26 дек 2004

Код (Text):

$strings = File("In.txt");

$file_out = fopen("Out.txt", "w");

$strings = array_unique($strings);

foreach($strings as $value)

fputs($file_out, $value);

fclose($file_out);

А если находить дубликаты вручную, то мне больше нравится традиционный for, чем foreach:

Код (Text):

$strings = File("In.txt");

$file_out = fopen("Out.txt", "w");

$length = sizeof($strings);

for($i = 0; $i < $length; $i++)

{

for($j = $i + 1; $j < $length; $j++)

if($strings[$i] == $strings[$j])

break;

if($j == $length)

fputs($file_out, $strings[$i]);

}

fclose($file_out);

volodya · 26 дек 2004

Ха-ха-ха... Неэффективно. Можно быстрее

vinnie_pooh · 26 дек 2004

volodya

Ты о втором варианте или об обоих? Как эффективнее?

volodya · 26 дек 2004

Вот это -

Код (Text):

foreach $item (@input)

{

unless ($seen{$item})

{

$seen{$item} = 1;

print OUT $item;

}

}

в принципе, ничего. Но логика немножко извратная.

Ну, а сие:

Код (Text):

for($i = 0; $i < $length; $i++)

{

for($j = $i + 1; $j < $length; $j++)

if($strings[$i] == $strings[$j])

break;

if($j == $length)

fputs($file_out, $strings[$i]);

}

цикл в цикле - О(N<sup>2</sup>) - чересчур.

Истинное же решение было предложено Sten'ом давно на этом же форуме.

Если предельно кратко. В виде псевдокода.

1. Прочитать файл в массив @arr

2. Отобразить @arr на %arr при помощи map.

Все. На шаге 2 будут удалены все дубликаты. Причем, очень эффективным способом.

vinnie_pooh · 26 дек 2004

Скорее всего, я неправ, но цикл в цикле - меньшее зло, чем вызов процедуры в цикле. А у меня внутренний цикл запускается каждый раз с меньшим количеством итераций. А вообще - все это неважно, жизнь прекрасна, а сетевое программирование - медленно.

Asterix · 26 дек 2004

volodya

> в принципе, ничего. Но логика немножко извратная.

Логика самая что ни на есть прямая, если элемента с именем

$item нет в хэше, то можно print его в файл, плюс добавить элемент в хэш

> Неэффективно. Можно быстрее

Ну не знаю, как его сравнивать по эффективности, это ж не асм чтоб засунуть код в профайлер..

Asterix · 26 дек 2004

> Все. На шаге 2 будут удалены все дубликаты.

Тогда нужен будет ещё шаг 3, чтоб распечатать в файл

volodya · 26 дек 2004

Да хоть четыре. Все будет быстрее, чем хранить твои ... э-э-э ... алгоритмы

volodya · 26 дек 2004

Ну не знаю, как его сравнивать по эффективности

http://www.unix.org.ua/orelly/perl/perlnut/ch06_05.htm

Asterix · 27 дек 2004

volodya

> http://www.unix.org.ua/orelly/perl/perlnut/ch06_05.htm

О! Эта книга у меня есть.

С этим понятно но не совсем, т.е. листинг я получить не смог.

> 1. Прочитать файл в массив @arr

2. Отобразить @arr на %arr при помощи map.

Хотел бы увидеть реализацию..

Что-то типа:

Код (Text):

%hash = map { genkey($_), $_ } @array;

???

volodya · 27 дек 2004

Вот:

http://www.wasm.ru/forum/index.php?action=vthread&forum=7&topic=1937&page=0

Asterix · 27 дек 2004

volodya

Понял!

Код (Text):

#!/usr/bin/perl -w

open(IN, "< in.txt") or die "Can't open file: $!";

open(OUT, "+> out.txt") or die "Can't open file out.txt for writing: $!";

@lines = <IN>;

close(IN);

%hash = map {$_, 0} @lines;

@lines = sort keys %hash;

print OUT @lines;

close(OUT);

А куда девался bsl_zcs ?

volodya · 27 дек 2004

Может, ему просто наскучил форум...

Увы, здесь мало алгоритмистов высокого класса Все больше про иконочки в трее спрашивают...

Same · 27 дек 2004

На PHP можно сделать короче и без циклов например(модифицируя пример товарища выше)

Код (Text):

$strings = array_unique(File("In.txt"));

$file_out = fopen("Out.txt", "w");

fwrite ($file_out,implode("",$strings));

fclose($file_out);

Или даже так

Код (Text):

$file_out = fopen("Out.txt", "w");

fwrite ($file_out,implode("",array_unique(File("In.txt"))));

fclose($file_out);

Войти или зарегистрироваться

Удаление дубликатов строк из файла

Asterix New Member

Asterix New Member

Asterix New Member

vinnie_pooh New Member

volodya wasm.ru

vinnie_pooh New Member

volodya wasm.ru

vinnie_pooh New Member

Asterix New Member

Asterix New Member

volodya wasm.ru

volodya wasm.ru

Asterix New Member

volodya wasm.ru

Asterix New Member

volodya wasm.ru

Same New Member

Войти или зарегистрироваться

Удаление дубликатов строк из файла

Asterix New Member

Asterix New Member

Asterix New Member

vinnie_pooh New Member

volodya wasm.ru

vinnie_pooh New Member

volodya wasm.ru

vinnie_pooh New Member

Asterix New Member

Asterix New Member

volodya wasm.ru

volodya wasm.ru

Asterix New Member

volodya wasm.ru

Asterix New Member

volodya wasm.ru

Same New Member

Быстрый поиск