(fasm) Подскажите алго сортировки unicode строк

t00x · 17 окт 2007

выбор алго зависит от:
1. объёма начальных данных;
2. упорядоченности начальных данных;
3. частоты добавления и удаления строк;
4. методов добавления и удаления строк в контексте методов организации списка/массива в памяти.

Mikl_ · 17 окт 2007

wsd
Сортирую двойные слова
Пузырьковая

Код (Text):

.data

R dd n-1;количество неотсортированных элементов минус один

array dd 10,450,320,120,180,600,50,230,340,460,550,500,130

dd 80,390,410,20,800,670,60,730,610,310,0,360,200

n = ($-array)/4

.code

mov esi,offset array ;позиционируемся на массив

a2: mov ecx,R

xor ebx,ebx ;флаг – были/не были перестановки в проходе

a3: mov eax,[esi+ecx*4-4] ;получаем значение очередного элемента

cmp [esi+ecx*4],eax ;сравниваем со значением соседнего элемента

jnb a4 ;если больше или равен - идем к следующему элементу

setna bl ;была перестановка - взводим флаг

xchg eax,[esi+ecx*4] ;меняем значение элементов местами

mov [esi+ecx*4-4],eax

a4: loop a3 ;двигаемся вверх до границы массива

add esi,4 ;сдвигаем границу отсортированного массива

dec ebx ;проверяем были ли перестановки

jnz exit ;если перестановок не было - заканчиваем сортировку

dec R ;уменьшаем количество неотсортированных элементов

jnz a2;если есть еще неотсортированные элементы - начинаем новый проход

exit:

При упорядочении массива из n элементов произойдет в лучшем случае, если массив отсортирован — n-1 сравнений. В худшем случае, если массив отсортирован в обратном порядке — при сортировке произойдет n*(n-1)/2 сравнений. (для n=26 элементов лучший случай — 25, средний — 289, худший — 325)
Шейкер

Код (Text):

.data

H dd 0 ;верхняя граница неотсортированного массива

L dd n-1 ;нижняя граница неотсортированного массива

.code

xor esi,esi ;нижняя граница неотсортированного массива

xor ebx,ebx ;флаг - были/не были перестановки в проходе

mov ecx,L;количество неотсортированных элементов снизу минус один

a4: inc esi

call Compare_and_Swapping ;сравнение и обмен значений элементов

loop a4 ;двигаемся вниз до границы массива

dec ebx ;проверяем были ли перестановки

jnz exit ;если перестановок не было - сортировка закончена

dec L ;уменьшаем количество неотсортированных элементов снизу

jz exit ;достигли границы массива

dec esi ;esi=L

mov ecx,esi

sub ecx,H;количество неотсортированных элементов сверху минус один

jecxz exit ;если граница снизу равна границе сверху - выходим

a2: call Compare_Swapping ;сравнение и обмен значений элементов

dec esi

loop a2 ;двигаемся вверх до границы массива

dec ebx ;проверяем были ли перестановки

jnz exit ;если перестановок не было - заканчиваем сортировку

inc H ;уменьшаем количество неотсортированных элементов сверху

inc esi ;esi=H

mov ecx,L

sub ecx,esi ;если граница снизу больше, чем граница сверху – значит

ja a4;есть еще неотсортированные элементы - начинаем новый проход

exit: . . .

Compare_Swapping proc;сравнение и обмен значений соседних элементов

mov eax,array[esi*4] ;получаем значение очередного элемента

cmp array[esi*4-4],eax ;сравниваем его с соседним элементом

jna a3 ;если меньше или равен - идем к следующему элементу

seta bl ;если была перестановка - взводим флаг

xchg eax,array[esi*4-4] ;меняем значения элементов местами

mov array[esi*4],eax

a3: ret

Compare_Swapping endp

n=26 элементов лучший случай — 25, средний — 259 (лучше пузырьковой сортировки на 20%), худший — 325
Пирамидальная

Код (Text):

.data

L dd n/2-1 ;левая граница неотсортированного массива

R dd n-1 ;правая граница неотсортированного массива

.code

;массив преобразуется в отображение пирамиды – вызвать процедуру

;down_heap n/2 раз для преобразования массива в пирамиду

b0: call down_heap

dec L ;while ( L > 0 ) L--;

jnz short b0

;собственно пирамидальная сортировка

dec L ;L=0

dec R ;R=n-2

b1: mov edx,R ;отправляем значение максимального

mov eax,array ;элемента в конец массива

xchg eax,array[edx*4+4] ; array[0] <--> array[R];

mov array,eax

call down_heap ;восстанавливаем пирамиду - на ее

;вершине появляется новое максимальное значение

dec R ;уменьшаем индекс последнего элемента

jnz short b1 ;while ( R > 0 ) R--;

b2: ...

;-----------------------------------------------------

down_heap proc; процедура вставки элемента на свое место в пирамиду

mov eax,L

mov ebx,eax ;i = L;

shl eax,1 ;j = 2*L;

mov esi,array[eax*2] ;item = array[L];

cmp eax,R ;if( j<R && array[j] < array[j+1]) j++;

jnb short a0

mov edx,array[eax*4]

cmp edx,array[eax*4+4] ;array[j] < array[j+1] ?

jnb short a0

; условие j<R && array[j]<array[j+1] выполнилось

inc eax ;j++

a0: cmp eax,R ;while( j<=R && item < array[j])

ja short a1

mov edi,array[eax*4]

cmp esi,edi ;item < array[j] ?

jnb short a1

; условие j<=R && item < array[j] выполнилось

mov array[ebx*4],edi ;array[i] = array[j];

mov ebx,eax ;i = j;

shl eax,1 ;j = 2*j;

cmp eax,R

jnb short a0;if( j<R && array[j] < array[j+1]) j++;

mov edx,array[eax*4]

cmp edx,array[eax*4+4]

jnb short a0

; условие j<R && array[j] < array[j+1] выполнилось

inc eax ;j++

jmp short a0

a1: mov array[ebx*4],esi ;array[i] = item;

retn

down_heap endp

n=26 элементов средний случай— 109 (лучше пузырьковой сортировки почти в 3 раза)

Mikl_ · 17 окт 2007

сортировка прямым включением

Код (Text):

mov esi,4 ;i=1

a4: push esi

a3: mov eax,array[esi-4]

cmp eax,array[esi]

jb a2

xchg eax,array[esi]

sub esi,4 ;двигаемся к началу массива

mov array[esi],eax

jnz a3

a2: pop esi

add esi,4 ;двигаемся к концу массива

cmp esi,n*4 ;просмотрели весь массив?

jb a4

n=26 элементов лучший случай — 25, средний — 172 (лучше пузырьковой сортировки на 40%), худший — 325
Алгоритм можно улучшить пользуясь тем, что готовая последовательность уже упорядочена. Место вставки нового элемента можно найти значительно быстрее, если применить бинарный поиск, исследовав сперва средний элемент упорядоченной последовательности и продолжая деление пополам, пока не будет найдено место вставки. Для n=26 элементов лучший случай — 25, средний и худший — 106 (лучше пузырьковой сортировки почти в 3 раза)

Код (Text):

mov ebx,1 ;ebx - граница неотсортированного массива

b1: mov edi,ebx

mov edx,edi;edi индекс первого элемента отсортированного массива

xor esi,esi;esi индекс последнего элемента отсортированного массива

mov eax,array[ebx*4]

cmp eax,array[ebx*4-4]

jnb b2

b6: cmp esi,edi ;проверка esi>edi на завершение поиска

jg b5 ;проверены все элементы, вставляем новый элемент

shr edx,1 ;индекс центрального элемента равен (edi+esi)/2

cmp array[edx*4],eax;сравниваем с искомым значением

ja b3 ;array[edx*4]<eax

jz b5 ;array[edx*4]=eax

inc edx ;учтем только что проверенное значение

mov esi,edx ;изменяем нижнюю границу поиска

add edx,edi ;создаем индекс центрального элемента

jmp short b6 ;переходим к следующему элементу

b3: dec edx ;учтем только что проверенное значение

mov edi,edx ;изменяем верхнюю границу поиска

add edx,esi ;создаем индекс центрального элемента

jmp b6 ;переходим к следующему элементу

b5: mov ecx,ebx ;сдвигаем отсортированные элементы, чтобы

sub ecx,esi ;освободить место для нового элемента

shl esi,2; esi=esi*4

push eax

b7: mov eax,array[esi+ecx*4-4];сдвиг отсортированных элементов

mov array[esi+ecx*4],eax

loop b7

pop eax

mov array[esi],eax;вставляем новый элемент

b2: inc ebx

cmp ebx,n

jb b1

сортировка прямым выбором
На массиве из n элементов время выполнения в худшем, среднем и лучшем случае n*(n-1)/2

Код (Text):

mov edi,offset array ;edi = указатель на массив

mov ecx,N ;ecx = количество элементов

a0: lea ebx,[edi+ecx*4] ;ebx = максимальный индекс в проходе+1

mov eax,[edi] ;eax=min=величина первого элемента в проходе

a1: sub ebx,4 ;двигаемся по проходу вверх

cmp eax,[ebx]

jbe a2 ;min > array[ebx] ?

xchg eax,[ebx] ;swap(array[ebx],min)

a2: cmp ebx,edi

jnz a1 ;проход закончился?

stosd ;mov [edi],eax edi=+4 на первой позиции минимальный элемент

loop a0

сортировка Шелла
Среднее время работы алгоритма зависит от длин промежутков, на которых будут находится сортируемые элементы исходного списка на каждом шаге алгоритма
при выборе последовательности значений d1=n/2, d2=d1/2,...,1 в худшем случае алгоритм выполнит O(n2) — сравнений 140
Table dd 32768,16384,8192,4096,2048,1024,512,256,128,64,32,16,8,4,2,1
все значения (3^j−1)/2 < n, такая последовательность шагов приводит к алгоритму класса O(n^(3/2)) — сравнений 108
Table dd 797161,265720,88573,29524,9841,3280,1093,364,121,40,13,4,1
последовательности вида N=2*N+1 — сравнений 118
Table dd 32767,16383,8191,4095,2047,1023,511,255,127,63,31,15,7,3,1
последовательность Дж.Инсерпи и Р.Седгевика — сравнений 115:
Table dd 198768,86961,33936,13776,4592,1968,861,336,112,48,21,7,3,1

Код (Text):

.data

Table dd 797161,265720,88573,29524,9841,3280,1093,364,121,40,13,4,1

.code

mov ecx,-14;в таблице приращений 13 элементов

entry: inc ecx

jz exit; если последний элемент в таблице - выход из программы

cmp [Table+ecx*4+13*4],n; ищем максимальное приращение (gap),

jge entry;соответствующее размеру нашего массива

a6: mov edx,[Table+ecx*4+13*4];получаем очередное приращение из таблицы

shl edx,2;выбрали интервал,у нас двойные слова,поэтому edx=edx*4

a2: mov ebx,edx;i=gap

a3: mov esi,ebx

sub esi,edx;j=i-gap

a4: mov eax,array[esi];for(i=gap;i<dim;i++)/*проход массива*/

cmp eax,array[esi+edx];сравнение пар,отстоящих

jbe a5;на gap друг от друга

xchg eax,array[esi+edx];swap(a[j],a[j+gap])

mov array[esi],eax

sub esi,edx ;j-=gap

jge a4

a5: add ebx,4 ;i++

cmp ebx,n*4 ;i < dim

jb a3 ;for(j=i-gap; j>=0 && a[j] > a[j+gap]

inc ecx

jnz a6

exit:

сортировка Хоара (быстрая сортировка)
Сортировка даёт в среднем O(n log n) сравнений

Код (Text):

push offset array+n*4-4;указатель на последний элемент

push offset array;указатель на первый элемент массива

call quick_sort ; quicksort (data, data+n-1)

;-----------------------------------------------------

partition proc Lb:dword, Ub:dword

; функция partition возвращает адрес pivot

mov edx,Ub

sub edx,eax ;eax=Lb

shr edx,3 ;(Ub-Lb)/2

; После завершения этого цикла все значения слева от элемента pivot

; будут меньше значения элемента pivot, а все значения справа от

; элемента pivot будут больше, чем значение элемента pivot

mov edi,[eax+edx*4] ;получаем указатель на pivot

;pivot = *(Lb+(Ub-Lb)/2)

cmp eax,Ub ;eax=Lb

ja short b0 ;return Lb;

; Поиск значения, большего чем pivot, в нижней части массива

b1: mov eax,Lb

cmp [eax],edi ;edi=pivot

jnl short b3 ;while (*Lb < pivot)

add Lb,4 ;Lb++;

jmp short b1

; Поиск значения, меньшего чем pivot, в верхней части массива

b4: sub Ub,4

b3: mov eax,Ub

cmp [eax],edi ;while (*Ub > pivot)

jg short b4 ;Ub--

mov ecx,Lb

cmp ecx,eax ;eax=Ub

ja short b5 ;if(Lb <= Ub)

sub Ub,4 ;swap( Lb++, Ub-- )

add Lb,4

mov edx,[eax] ;eax=Ub

xchg edx,[ecx] ;ecx=Lb

mov [eax],edx ;*Ub<-->*Lb;

b5: mov eax,Lb

cmp eax,Ub

jbe short b1 ;while (*Lb < pivot)

b0: pop ebp

retn 8

partition endp

;------------------------------------------------------------

quick_sort proc Lb:dword, Ub:dword

mov eax,Lb

cmp eax,Ub ; if (Lb >= Ub)

jnb short exit1 ;сортировать нечего

push Ub

push eax ;eax=Lb

call partition

mov edi,eax ;eax=pivot_ptr

sub eax,4 ;pivot_ptr-1

push eax

push Lb

call quick_sort ;отсортируем то, что слева от pivot

push Ub

push edi ;edi=pivot_ptr

call quick_sort ; и то, что справа от pivot

exit1: pop ebp

retn 8

quick_sort endp

wsd · 17 окт 2007

Mikl__
мне понравилось
t00x

3. частоты добавления и удаления строк;
4. методов добавления и удаления строк в контексте методов организации списка/массива в памяти.
Нажмите, чтобы раскрыть...

3. Так добавлять то надо в нужное место ,а не куда пепел ляжет
Ведь сортируют не только для вывода но и для быстрой меткой вставки.

4.структура данных и определяет метод.
Слышал мельком Дядька КНУТ что супер интересную структуру в своих последних трудах
придумал, но всё ни как до него не доберусь

t00x · 17 окт 2007

wsd
пункты 3. и 4. неразрывно связаны и зависят от пунктов 1. и 2.

P.S. а вообще, постановка задачи неполная.

Mikl_ · 19 окт 2007

nim
Немного подумав, а зачем собственно сортировать юникод-строки, возможно что ТС работает с каким-нибудь экзотическим словарем (русско-китайский, корейский, японский, хинди)? Тогда имеет смысл сортировать не сам словарь, после вставки/удаления каждого нового слова придется сортировать словарь заново, а сортировать ссылки на юникод строки, т.е создается структура вида: array[0], 21; array[21],10; array[31],15;... адрес юникод-строки и ее длина. При сортировке сортируются элементы этой структуры - а при выводе на экран сам словарь не трогается - выводятся элементы словаря согласно отсортированного списка. Если мое предположение правильное, то на экран из единственного словаря можно выводить рассортированные списки русско-китайский, китайско-русский, выборка по темам (только глаголы, только географические названия и т.п.). Новые словарные статьи добавляются в конец существующей базы, а при удалении словарных статей происходит удаление ссылки и ссылки пересортировываются...

Mikl___ · 23 окт 2009

С удивлением обнаружил среди импортируемых функций в user32.dll функцию __imp__qsort@16 из ntdll (ногами не пинайте, google мне выдал, что это уже обсуждалось на форуме wasm.ru)
параметры ntdll.qsort такие же как у qsort в С/С++
base ;Start of target array.
num ;Array size in elements.
width ;Element size in bytes.
compare ;Comparison function. The first parameter is a pointer to the key for the search and the second parameter is a pointer to the array element to be compared with the key.
А преподаватели-то об этом не знают и всё требуют и требуют от бедных студентов реализацию быстрой сортировки на ассемблере
В аттаче сорц и ехе под WinXP с использованием qsort

Rockphorr · 23 окт 2009

сортировку лучше делать универсальной чтоб уж если сортировать то все что угодно а не только строки
для этого сортировщику помимо остального передаются функции сравнения и обмена местами

Mikl___ · 24 окт 2009

Rockphorr сказал(а):

сортировку лучше делать универсальной чтоб уж если сортировать то все что угодно а не только строки для этого сортировщику помимо остального передаются функции сравнения и обмена местами
Нажмите, чтобы раскрыть...

Rockphorr
Всё, что написано в #22-23 имеет учебно показательную цель, да и ТС требовалось именно unicode строки. Функция ntdll.qsort в #27 итак универсальна, вы можете сортировать байты, слова, двоиные слова, структуры и т.д., от вас требуется лишь указать размер сортируемого элемента, а функция сравнения, по-любому, пишется юзером, сортируйте, хоть по возрастанию, хоть по убыванию, при совпадении первого символа -- анализируйте второй символ и т.п.
ПС для функции compare в #27 достаточно

Код (Text):

compare proc

mov eax,[esp+4]

mov eax,[eax]

mov ecx,[esp+8]

sub eax,[ecx]

retn

compare endp

Medstrax · 24 окт 2009

Все прекрасно, кроме реализации.

intel_x128 · 24 окт 2009

Сори за оффтоп.
Можно ли доработать ваши алгосы так, чтобы кроме самих строк учитывались и числа.
К примеру:

Код (Text):

hello world 2

hello world 1

hello world 10

hello world 20

-------------------------

Ваши методы после сортировки дают такой результат

Код (Text):

hello world 1

hello world 10

hello world 2

hello world 20

а это неправильно.

Как при сортировке учесть числа?

iZzz32 · 24 окт 2009

google natural sort algorithm

Mikl___ · 26 окт 2009

intel_x128

Код (Text):

hello world 2 --> hello world 02

hello world 1 --> hello world 01

hello world 10 --> hello world 10

hello world 20 --> hello world 20

Mikl___ · 26 окт 2009

Medstrax сказал(а):

Все прекрасно, кроме реализации.
Нажмите, чтобы раскрыть...

?

Войти или зарегистрироваться

(fasm) Подскажите алго сортировки unicode строк

t00x New Member

Mikl_ New Member

Mikl_ New Member

wsd New Member

t00x New Member

Mikl_ New Member

Mikl___ Супермодератор Команда форума

Rockphorr Well-Known Member

Mikl___ Супермодератор Команда форума

Medstrax Забанен

intel_x128 New Member

iZzz32 Sergey Sfeli

Mikl___ Супермодератор Команда форума

Mikl___ Супермодератор Команда форума

Войти или зарегистрироваться

(fasm) Подскажите алго сортировки unicode строк

t00x New Member

Mikl_ New Member

Mikl_ New Member

wsd New Member

t00x New Member

Mikl_ New Member

Mikl___ Супермодератор Команда форума

Rockphorr Well-Known Member

Mikl___ Супермодератор Команда форума

Medstrax Забанен

intel_x128 New Member

iZzz32 Sergey Sfeli

Mikl___ Супермодератор Команда форума

Mikl___ Супермодератор Команда форума

Быстрый поиск