Чтение и запись в память

emergenter · 27 дек 2004

Есть большой массив, элементы по 16 бит = 2 байта.

Хочу на асме сделать ОПТИМИЗИРОВАННУЮ ФУНКЦИЮ, которая бы считывала значения из массива и записывала бы в другой! По каким порция эффективнее всего считвать из памяти и записывать в память?

т.е. можно считать как сразу 64 бита можно последовательно хоть 8 раз по 64 бита, можно считать сразу 128 бит, можно последоватьельно считать 128 бит, можно по 32 бита считывать, такая же картина и с записью в память.

S_T_A_S_ · 27 дек 2004

volodya уже давно документ от AMD положил на сайт.

Там всё расписано.

emergenter · 27 дек 2004

Так вроде что подходит для AMD не подходит для P4? ведь так?

S_T_A_S_ · 27 дек 2004

Сказки!

emergenter · 27 дек 2004

ОК!!!!! А ссылочку на статейку можно?

Turkish · 27 дек 2004

А rep movsd не рулит?

bogrus · 27 дек 2004

См. Агнер Фог, гл. 19.6 Moving blocks of data (All processors)

emergenter · 27 дек 2004

Turkish

Может быть есть круче!! Дело в том я хочу не только копировать а преобразовывать из целочисленного знакового в плавующие FLOAT!! Я знаю 3 способа:

1) SSE + SSE2 сразу по 4 значения в регисре!!

2) Сопроцессор с синхронизацией FWAIT

3) movzx + SSE

S_T_A_S_ · 27 дек 2004

emergenter

В раздел Документы лень посмотреть?

Using Block Prefetch for Optimized Memory Performance by Mike Wall

Пример на фасме я уже раз пять кидал...

Turkish >

А rep movsd не рулит?
Нажмите, чтобы раскрыть...

Я не знаю, что под понимать под словами

большой массив
Нажмите, чтобы раскрыть...

, но если порядок - Мег, то шина памяти тормозит сильно. Хотя на PIV вроде movsd ускорен аппаратно - не знаю, провереть негде :-(

phoenix · 27 дек 2004

Люди!!! Help!!! Кто-нибудь знает более-менее эффективный алгоритм перемножения двух матриц с числами типа float при помощи SSE-инструкций. А то использовать стандартные инструкции сопроцессора как-то не очень хорошо, когда проц реализует хоть и примитивный, но все-таки SIMD. В четыре раза быстрее может получиться!

emergenter · 28 дек 2004

phoenix

это тока кажется на практике в 4 раза быстрее ОЧЕНЬ ТЯЖЕЛО ПОЛУЧИТЬ РЕЗУЛЬТАТ!! Надо долго и упорно изучать доки типа таких как S_T_A_S_ предложил к чтению!!! Я думаю практически никто не сможет похвастаться приростом в 4 раза переписав все на SSE!! У меня получалось только в 1,5 - 2 раза быстрее!!

phoenix · 28 дек 2004

Проблема, собственно говоря, не в том, даст ли SSE увеличение производительности в четыре раза (и так понятно, что не даст в силу различных издержек). Проблема в том, даст ли SSE хоть какое-то увеличение производительности. Я разрабатываю библиотеку для быстрого выполнения операций над векторами и матрицами, которая потом будет использоваться для моделирования нейронных сетей. Понятно, что даже незначительное увеличение скорости работы отдельных компонентов может ощутимо сократить время обучения сети.

Проблемой при перемножении двух матриц является то, что элементы одной мы должны брать из строки, а другой - из столбца. Соответсвенно, если матрица храниться в памяти по строкам, то адреса элементом в строке первой матрицы непосредственно следуют друг за другом, а адреса элементов второй матрицы - с определенным шагом. Выходом из сложившейся ситуации могло бы стать транспонирование второй матрицы или одновременное хранение нормальной матрицы и ее транспонированного варианта. Но в первом случае это приведет к перераходу памяти и затратам времени на операцию транспонирования, а во втором к затратам времени на операцию обновления значений элементов, что так же крайне нежелательно. Идеальным выходом была бы какая-нибудь хитрая манипуляция с адресами. Может кто-нибудь знает?

S_T_A_S_ · 28 дек 2004

У меня где-то были такие библы готовые, только они почему-то под AMD 3DNow! и для IA-64

На intel.com afaik можно найти под SSE.

Stiver · 28 дек 2004

phoenix

Проблемой при перемножении двух матриц является то, что элементы одной мы должны брать из строки, а другой - из столбца. Соответсвенно, если матрица храниться в памяти по строкам, то адреса элементом в строке первой матрицы непосредственно следуют друг за другом, а адреса элементов второй матрицы - с определенным шагом.
Нажмите, чтобы раскрыть...

Если имеется ввиду проблема кэширования данных, то имеет смысл использовать "space filling curves"(русского термина к сожалению не знаю). Например здесь: Recursive Array Layouts and Fast Parallel Matrix Multiplication ну и google соответственно.

Я разрабатываю библиотеку для быстрого выполнения операций над векторами и матрицами
Нажмите, чтобы раскрыть...

А чем не нравятся уже имеющиеся(типа linpack,lapack etc.)?

phoenix · 28 дек 2004

А ты думаешь, что я знаю где они живут? Буду очень признателен, если дашь ссылку.

Stiver · 28 дек 2004

phoenix

А ты думаешь, что я знаю где они живут? Буду очень признателен, если дашь ссылку.
Нажмите, чтобы раскрыть...

Linpack и Lapack - библиотеки для решения линейных систем уравнений для всеможных матриц. Linpack уже немного устарела, но всё еще используется во всяких бенчмарках. Если же тебя интересуют отдельные операции с матрицами и векторами, то смотри BLAS 1,2 и 3.

Общий код есть на netlib.org:

http://www.netlib.org/lapack/

http://www.netlib.org/blas/

Оптимированные под определенный процессор версии нужно искать на странице производителя.Например Intel:

http://developer.intel.com/software/products/mkl/features/lin_alg.htm

Часто входят в комплект поставки математических пакетов, я в свое время использовал Linpack из Matlab.

P.S. Написаны на Fortran 77, как и практически вся серьёзная математика.

Maggot · 11 авг 2005

Люди!!! Help!!! Кто-нибудь знает более-менее эффективный алгоритм перемножения двух матриц с числами типа float при помощи SSE-инструкций. А то использовать стандартные инструкции сопроцессора как-то не очень хорошо, когда проц реализует хоть и примитивный, но все-таки SIMD. В четыре раза быстрее может получиться!
Нажмите, чтобы раскрыть...

http://www.itanium.ru/design/pentiumiii/sml/24504501.pdf

Войти или зарегистрироваться

Чтение и запись в память

emergenter New Member

S_T_A_S_ New Member

emergenter New Member

S_T_A_S_ New Member

emergenter New Member

Turkish New Member

bogrus Active Member

emergenter New Member

S_T_A_S_ New Member

phoenix New Member

emergenter New Member

phoenix New Member

S_T_A_S_ New Member

Stiver Партизан дзена

phoenix New Member

Stiver Партизан дзена

Maggot New Member

Войти или зарегистрироваться

Чтение и запись в память

emergenter New Member

S_T_A_S_ New Member

emergenter New Member

S_T_A_S_ New Member

emergenter New Member

Turkish New Member

bogrus Active Member

emergenter New Member

S_T_A_S_ New Member

phoenix New Member

emergenter New Member

phoenix New Member

S_T_A_S_ New Member

Stiver Партизан дзена

phoenix New Member

Stiver Партизан дзена

Maggot New Member

Быстрый поиск