Прошу прощение за долгое отсутствие. Не было времени вернуться к проблеме. Спасибо всем за советы, в особенности leo. Простое транспонирование второй матрицы позволило увеличить производительность примерно на порядок. Но, единственный момент. Эмпирически было установлено, что нет особого смысла в такой оптимизации при размерах матриц меньше ~300x300.