С подачи Rel заинтересовался языком D. Собрал хеллоуворлд и просканил на виртотале - как обычно, порадовали наши "друзья" аверы. 1 скан. режим -betterC (нет эксепшнов и чего-то еще, файл получается размером 74 кб). Палит 6 недоаверов , среди которых, как ни странно, VBA (был о нем лучшего мнения). 2 скан - настройки по дефолту, файл 400 кб, палит разный сброд в т.ч. битдеф. Я уже привык, что ехе-шники на Асм дают 100 детектов, потому что там нестандартные РЕ , нет рантайма и так далее. Но с чего аверам не нравится D ? Вроде на нем малвари никто массово не писал пока что.
У DMD компилятора, если мне память не изменяет, код находится в секции CODE, а не text. Может это подозрительно? Попробуй LDC компилятор просканить, там вроде стандартные секции.
Rel, нет, сейчас .text называется в нем. Да как бы пофиг, добавить иконку и все прочее, и детекты собьются. Но сам факт удивляет. Или это новое поколение AI-аверов тупо детектит все подряд нативное?
Я помню на пхдейзе была презетнация по машинному обучению в касперском, там много спорных решений, да. От МЛя в аверах лучше не становится, хотя в теории это должно помогать от всяких полиморфов, но на практике пройдет еще много лет, пока аверы разберуться, как МЛ применять в своих продуктах. Но вообще вряд ли это относится к машинному обучению, просто аверы - гуан собачий.
На мои асм консоль программки только пару тройку аверов агрятся. Не нравится им нестандартный стартовый код, хотя это уже самый настоящий стандартный отлаженный код. ЗЫ Забавно, но даже стажёр, с помощью идушки, за одну минуту докажет полную безопасность моих файлов. --- Сообщение объединено, 12 сен 2021 --- ЗЫ Некоторые аверы уже добавили мой стартовый код в исключения, т.к. один перестал агрится.
Intro, c асма я давно не удивляюсь, как и Си или дельфи там. странно, что агрятся на языки, на которых как бы ничего не создавалось.
Они скорее всего агрятся не на что-то "черного" софта в этих исполняемых файлах, а на то, что они не похожи на экзешники "белого" софта.
Вероятно кто-то наклепал на D лодеров и закрепов, в АВ конторе какой-то лох не понял, что это стандартный стаб компилера D и теперь детектит все подряд. Порядочный человек в АВ контору работать не пойдет, поэтому контингент там из маргиналов различных. Хэкеры нагенерили миллионы вариаций и морфов, до такой степени выросла параноя у АВ, что они работают по белым спискам, у них там апрувленные бинари имеют 0 детектов, а все остальное с ровного места жестко палится. И чем более редкий файлик бинаря, тем больше его дрочат в облаках всяких. Простыми словами АВ индустрия, в виду некомпетентности, перешла к тоталитаризму. Сейчас легче жить под линем, какие-то свободы хоть.
Антивирусы могут беспокоиться тупо от отсутствия валидной подписи. ЗЫ: мне на днях виндовс дефендер снес мюторрент как нежелательную программу. И дистрибутивы сожрал лежавшие в двух разных местах. Ссылки в меню пуск оставил, что интересно.
"Хеур" или "дженерик" как бэ указывают на эвристический анализ - древнюю гавнотехнологию детекта с погрешностью около 100%. "АИ скоре" это намек новомодную продвинутую гавнотехнологию, где мозг даже тупого человека ни разу не поучаствовал в создании критериев для детекта. Это как платяную вошь обучать детекту вирусов. Такие детекты стоит воспринимать только как критерий паршивости антивируса. Кстати касперского в списке нету, еще одно подтверждение, что в число паршивых он не входит.
Ни чуть не защищаю аверов, но нужно понимать, что ML дает хорошие результаты и вычисляет редко уловимую схожесть в тех семплах, на которых он обучался. Но для этого нужно еще и выбрать правильный алгоритм, правильно подготовить обучающую выборку и тд. Я далеко не уверен, что то, как реализован ML в Касперском и других аверах, является наиболее эффективным решением. Тот же фильтр Блума на строках, кажется странным решением. Понятно, что это оптимизация, но дает ли она хороший результат в плане детектов? Мне кажется, что не должна.
Rel, > ML дает хорошие результаты и вычисляет редко уловимую схожесть в тех семплах Сомнительное утверждение. Чтобы нейронка выдала какой никакой результат нужен датасет, причём в данном случае малварных семплов, которых нет тк на этом никто их не собирал. Так на чём обучать нейронку ? Скорее всего штатный эвристик по пе формату, энтропия и тп. Авер может даже и не знает про этот яп.
Лол, ты же сам гонял тысячи семплов малвари, а теперь удивляешься откуда их брать? Уж у Женьки Касперского их целая куча, особенно с введением в их продукт облачных технологий. Вот тут, например, утверждается, что ихняя обучающая выборка была 300 миллионов семплов: https://standoff365.com/phdays10/sc...e/adversarial-attacks-on-malware-classifiers/ Если ты про малварь на конкретно Дэ, то внимательно читай моё сообщение, никакого отношения конкретно к малвари на Дэ мое утверждение не имеет. Только к малваре в общем.
Rel, Имеется ввиду сборки на том самом D. Я не видел никогда, там что билдер используется левый, врядле хотя можно посмотреть и потестить. Это займёт много времени, что бы хоть простую последовательность апи вызвать. Всегда есть приоритет: сигнатуры -> эмуляция -> эвристик -> датасет.
Хз, по идее сборки -betterC не должны существенно отличаться кодом от Цэ. Обычные сборки имеют жирную стандартную библиотеку в них (Phobos называется вроде), но в ней тоже не должно быть подозрительного кода, там всякие RTTI-таблицы у классов, типа как в Го. Надо будет самому собрать и посмотреть, чего там такого нестандартного, из-за чего аверы перевозбуждаются.
Rel, Я не видел никогда сабжевые билды, это не нужно всегда работают общие принципы по детекту. В этой цепочке от сигнатур до датасета накапливается ошибка, последнее для детекта имхо вовсе не применимо. Бинарь можно криптовать как угодно и это делает принципиально не применимым детект на основе обучения. Ошибки будут 10 из 10, тк нс попытается найти подобие на незнакомом семпле. Глупая затея.
Если нейронка обучится на достаточном количестве семплов одного и того же криптора, то сможет его детектить. Так или иначе будут какие-то общие фрагменты кода или данных между всеми семплами. Как ты не обфусцируй или не морфь код, все равно какие-то фрагменты или трансформации кода или данных будут общими между всеми семплами. Посмотри презентацию, что я скинул, там в общих чертах описывается, как ML работает в Касперском, и какие у него есть недостатки.
Ну и да и нет. На больших объемах семплов и с работающим облаком и сендбоксами нормально работающее машинное обучение выгоднее, можно экономить на зарплатах "дятлов". Да и потом та же нейронка способна выявить более сложно уловимые подобия в массивах данных. Чтобы какой-то хитрый морфер сигнатурно детектировать нужно, чтобы какой-то "дятел" посидел и алгоритмически составил сложную сигнатуру или несколько сигнатур для одного семейства, а нейронка может сама это сделать, после того, как облако или "дятлы" установили, что это семплы из одного семейства.
Rel, Видос есть от известного кардера с идой и прочей мелочью: Учитывая их уровень и инструменты, про какие то экзотические" технологии нет смысла говорить. Они простейший крипт вирту и тп не разматают с таким подходом.