надёжный способ отличить код от данных в pe файле

vladqq · 19 авг 2009

с билдеровскими exe получается проблема даже если есть detailed map файл, тк не понятно в какой момент заканчивается функция и начинаются константы (многие функции имеют много ret-ов). а константу можно вполне принять за нормальный код, отличить проблематично. но ида их както со 100%ной точностью распознаёт.

qqwe · 19 авг 2009

а заголовки функции используют?

qqwe · 19 авг 2009

вы б вобщето выложили какойнить маленький файлик с описанным затруднением.
а вобще, вам стоит самому понакомпилить маленьких ехе (мало кода/данных), но чтоб в код данные поклало. отдельно с числами, строками, сруктурами, каллбэками и посмотреть что там и как. а возникнут вопросы - не стесняйтесь аттачить. ато я, например, делфу/билдер около 2к года последний раз видел.

max7C4 · 20 авг 2009

qqwe
выложите ка программку, где вы в билдере используете (с пользой) код как данные
я не говорю, что не возможно, а лишь констатирую тот факт, что чушь с генерированную билдером не просто не возможно предсказать (а если еще и включить оптимизацию), но и использовать с пользой (вот на асме еще вполне реально).

qqwe · 20 авг 2009

max7C4

выложите ка программку, где вы в билдере используете (с пользой) код как данные
Нажмите, чтобы раскрыть...

я, например, делфу/билдер около 2к года последний раз видел.
Нажмите, чтобы раскрыть...

потому мсвс, хотя имхо разница тут небольшая

отдельный файл с функцией(ями) foo используемой и как данные (исходные/проверяемые/изменяемые)

Код (Text):

#include <stdio.h>

#include <math.h>

extern int

foo(int _a, int _b){

double a, b, c;

a = (double)_a;

b = (double)_b;

c = a + b * log(a + b);

c = a * sin(c);

if(c > 0){

a = b * c;

b = tan(a) * b + c;

printf("%.4f\n", a - b);

return 1;

}

return 0;

}

extern void

foo_e(){}

отдельный вспомогательный файл нужный, чтобы получить скомпиленую foo без хекседиторов

Код (Text):

#include <stdio.h>

extern int foo(int, int b);

extern void foo_e();

int

main(){

unsigned char* f = (unsigned char*)(&foo);

int foo_sz = (int)(&foo_e) - (int)(&foo);

int i;

printf("foo (0x%X), size = %d\n\n", f, foo_sz );

printf("foo bytes = {\n\t");

for(i = 0; foo_sz > 0; foo_sz--, f++, i >= 8 ? printf("\n\t", i = 0) : i++)

printf("0x%.2X, ", *f);

printf("}\n");

return 0;

}

ессно, первый файл после считывания уже не перекомпиливается.

как видите, мы не просто предсказали, а узнали совершенно точно.
как и для чего это можно использовать.. ну a + b = c. а можно и a + b = a.. вобщем каков много. исходные данные полюбому нужны

Velheart · 20 авг 2009

константу можно вполне принять за нормальный код, отличить проблематично. но ида их както со 100%ной точностью распознаёт.
Нажмите, чтобы раскрыть...

да неправда, часто в mcf-прогах не распознает функции, т.к. большинство вызовов виртуальные => нет ссылок на многие функции, и они лежат как данные, попробуй поискать в 10 mfc-shareware-прогах надпись о неправильном номере, и т.д. , уверен, что наткнешься на такую в которой ссылки на текст не будет, хотя бинарным поиском текст будет искаться, а потом, после хардварного брейка на аксесс, будет видно, что код, читающий -- не дизассемблирован)) может я не прав, пусть гуру поправят, но ида ищет именно по ссылкам перекрестным + иногда минимально как-то еще)) тк все-таки иногда попадаются явно функции без ссылог..

max7C4 · 20 авг 2009

qqwe
1.

потому мсвс, хотя имхо разница тут небольшая
Нажмите, чтобы раскрыть...

в том-то и прикол. говорится про билдер и его любовь пихать данные в сегмент кода.
2.

где вы в билдере используете (с пользой) код как данные
Нажмите, чтобы раскрыть...

3.

extern int foo(int _a, int _b){ double a, b, c; a = (double)_a; b = (double)_b; c = a + b * log(a + b); c = a * sin(c); if(c > 0){ a = b * c; b = tan(a) * b + c; printf("%.4f\n", a - b); return 1; } return 0; } extern void foo_e(){}
Нажмите, чтобы раскрыть...

с успехом можно заменить строкой байт. т.е. это не код. потеряна смысловая нагрузкам как кода, хоть в исходнике это и код - в программе это лишь данные для вывода.

qqwe · 22 авг 2009

max7C4

в том-то и прикол. говорится про билдер и его любовь пихать данные в сегмент кода.
Нажмите, чтобы раскрыть...

а какая разница в данном случае? ов тоже может все запихать в код, если ему это указать. впрочем у меня нет билдера и вам знать лучше, тк вы можете проверить

где вы в билдере используете (с пользой) код как данные
Нажмите, чтобы раскрыть...

а что вы считаете пользой?
вы можете таким образом тестировать некоторые функции на неизменность
вы можете морфировать некоторые функции, те из функции а получать функционально совсем другую функцию б
вы можете использовать это в обработчике паролей.
вы можете некоторый функционал постороить на диспетчерах, а сам диспетчер взять в оборот
ну, обычные данные само-собой

да много чего придумать можно. например, некоторую защиту от декомпиля/анализа

с успехом можно заменить строкой байт. т.е. это не код. потеряна смысловая нагрузкам как кода,
Нажмите, чтобы раскрыть...

тут я вас не понял. причем в упор. вам не понравилось чего я в тело функции запихал? а чего вы хотели? вот чего вам надо, того и запихните.
вы можете заменить строкой байт, но в моем случае эта строка вам не нужна, тк ее вполне заменяет ваш исполняемый код. и почему смысловая нагрузка потеряна? функция то исполнимости не теряет

хоть в исходнике это и код - в программе это лишь данные для вывода.
Нажмите, чтобы раскрыть...

??
а вы зиродей для копипастинга хотели?? я просто показал, что код как данные использовать таки можно, а как вы это используете: для вывода, как данные, для криптования или для самомодификации - дело сугубо ваше. фантазия + эксперимент - ваши помощники

max7C4 · 22 авг 2009

qqwe

а что вы считаете пользой?
Нажмите, чтобы раскрыть...

я хочу подчеркнуть, что именно КОД как данные
ваш же случай эквивалентен
printf("ggg muhaha bugaga");
где в роли строки берутся данные откомпилированные как "код", но ни разу не исполняемые (что снимает с этих данных смысловую нагрузку код). и хоть в исходнике вы видите код, но на самом деле это лишь последовательность байт (константный массив с данными, однозначно в вашем примере)

вы можете таким образом тестировать некоторые функции на неизменность
Нажмите, чтобы раскрыть...

это снимает с явно определяет указатель на код

вы можете морфировать некоторые функции, те из функции а получать функционально совсем другую функцию б
Нажмите, чтобы раскрыть...

это тоже однозначно определяет участок данных как код

вы можете некоторый функционал постороить на диспетчерах, а сам диспетчер взять в оборот
ну, обычные данные само-собой
Нажмите, чтобы раскрыть...

аналогично

тут я вас не понял. причем в упор. вам не понравилось чего я в тело функции запихал? а чего вы хотели? вот чего вам надо, того и запихните.
вы можете заменить строкой байт, но в моем случае эта строка вам не нужна, тк ее вполне заменяет ваш исполняемый код. и почему смысловая нагрузка потеряна? функция то исполнимости не теряет
Нажмите, чтобы раскрыть...

ну я к примеру не вижу ни одного ее вызова, явного или не явного т.е. этот кусок данных так или иначе не подвергается исполнению => его можно рассматривать как массив данных

а вы зиродей для копипастинга хотели?? я просто показал, что код как данные использовать таки можно, а как вы это используете: для вывода, как данные, для криптования или для самомодификации - дело сугубо ваше. фантазия + эксперимент - ваши помощники
Нажмите, чтобы раскрыть...

я лишь хочу указать, на то, что данные в бинарнике делятся на две категории
1) подвергаемые исполнению - код
2) используемые при исполнении - данные
я же имею ввиду например данные, которые используются в качестве кода, но одновременно являются полезными данными
пример: "rescue"
обычное слово, но на него может быть сделан не явный переход т.к. дизассембируется это как

Код (Text):

jc 0x65

jnc 0x63

jz 0x65

и первые 2 команды означают безусловный переход на 0х65 байт дальше, где может располагаться shadow executable procedure, а после затирания данных (хоть ей же) и не найти эту процедуру
в дизассемлере это определится явно как строка (особенно если она явно будет использоваться как строка), а не явно может вызываться и быть кодом (вот тогда это действительно не отличить). в ваших же примерах на Си вы похоже даже не подозреваете что как будет логически оцениваться после компиляции.

Stiver · 22 авг 2009

Как уже было отмечено выше, в общем случае эта задача не решаема. Еще лет 30 назад было доказано, что она эквивалентна проблеме остановки (halting problem).

А на старых системах код нередко использовался одновременно как данные. Вот даже литературное свидетельство: http://www.pbm.com/~lindahl/mel.html

qqwe · 22 авг 2009

max7C4

ваш же случай эквивалентен
printf("ggg muhaha bugaga");
где в роли строки берутся данные откомпилированные как "код", но ни разу не исполняемые (что снимает с этих данных смысловую нагрузку код). и хоть в исходнике вы видите код, но на самом деле это лишь последовательность байт
Нажмите, чтобы раскрыть...

Код (Text):

#include <stdio.h>

extern void

foo(char* b, char* e){

int i;

printf("foo (0x%X), size = %d\n\n", b, e - b );

printf("foo bytes = {\n\t");

for(i = 0; e > b; b++, i >= 8 ? printf("\n\t", i = 0) : i++)

printf("0x%.2X, ", *((unsigned char*)b));

printf("}\n");

}

extern void foo_e(){}

Код (Text):

#include <stdio.h>

extern void foo(char*, char*);

extern void foo_e();

int

main(){

foo((char*)&foo, (char*)&foo_e);

return 0;

}

так лучше?
файл N 2 нужен только для узнавания во что скомпилилась функа в файле 1. для использования 1 пишутся файлы 3, 4 итд

это снимает с явно определяет указатель на код
Нажмите, чтобы раскрыть...

??

это тоже однозначно определяет участок данных как код
Нажмите, чтобы раскрыть...

аналогично
Нажмите, чтобы раскрыть...

откуда такая уверенность? на буквы не похоже? не похожи на буквы картинки, архивы, шифры и даже текст в утф8 на китайском не с начала

ну я к примеру не вижу ни одного ее вызова, явного или не явного т.е. этот кусок данных так или иначе не подвергается исполнению => его можно рассматривать как массив данных
Нажмите, чтобы раскрыть...

абсолютно все можно рассматривать как массивы данных.

я лишь хочу указать, на то, что данные в бинарнике делятся на две категории
1) подвергаемые исполнению - код
2) используемые при исполнении - данные
Нажмите, чтобы раскрыть...

это заблуждение. крипторы/морферы/виртуалки полным ходом рассматривают код как данные

в дизассемлере это определится явно как строка (особенно если она явно будет использоваться как строка), а не явно может вызываться и быть кодом (вот тогда это действительно не отличить). в ваших же примерах на Си вы похоже даже не подозреваете что как будет логически оцениваться после компиляции.
Нажмите, чтобы раскрыть...

ну, я многое не подозреваю, потому частенько проверяюсь. вот и счас

Код (Text):

#include <stdio.h>

char *s = "rescue";

typedef void(*foo)();

int main(){

foo f = (foo)s;

printf(s);

f();

return 0;

}

запустить не получается, но ида поняла как строку. те способ действенный, хоть и немного сложный в написании. невнимательный реверсер не сразу допрет

max7C4 · 22 авг 2009

Stiver
ни кто и не говорит об однозначности. просто при дизассемблировании можно классифицировать те или иные байты как команды/данные в зависимости от признаков:
1) по адресу производится переход или вызов - команды
2) по адресу производится чтение/запись - данные/команды (на этот вопрос отвечает первый признак)
3) по адресу производится индексированное чтение/запись - массив/команды (на этот вопрос отвечает первый признак)
4) по адресу производятся последовательный доступ и применение идентичных операций - строка/команды (на этот вопрос отвечает первый признак)

их можно дополнять, но первый признак это основной признак отличия команд от данных
если кусок байт не подвергается исполнению, то это лишь кусок байт. просто иногда однозначно не ясно, исполняется ли тот или иной кусок байт.

max7C4 · 22 авг 2009

так лучше?
Нажмите, чтобы раскрыть...

уже лучше.

dermatolog · 24 авг 2009

По-моему задача частично решается методами, используемыми в OllyDBG (там есть несколько разных методов анализа кода в том числе и эвристика). Кто-нибудь встречал подробное описание этих методов?

Vam · 25 авг 2009

dermatolog

По-моему задача частично решается методами, используемыми в OllyDBG (там есть несколько разных методов анализа кода в том числе и эвристика).
Нажмите, чтобы раскрыть...

Вот именно, только частично, причем не самым лучшим образом. В IDA распознавание данных и кода выполнено намного лучше. Надо учитывать, что за один проход (OllyDBG), правильный результат получить невозможно, IDA многопроходна, но и ей не хватает мастерства, необходимо или чуток изменить алгоритм или добавить пару проходов. Правильный алгоритм - распознаем код, а всё, что не код - это данные.

dermatolog · 25 авг 2009

Vam

В IDA распознавание данных и кода выполнено намного лучше.
Нажмите, чтобы раскрыть...

На то она и IDA )

Правильный алгоритм - распознаем код, а всё, что не код - это данные.
Нажмите, чтобы раскрыть...

Понятно что это самый правильный способ, только есть одно НО - в общем случае это нереализуемо на автомате.

Killer · 25 авг 2009

Надо учитывать, что за один проход (OllyDBG), правильный результат получить невозможно
Нажмите, чтобы раскрыть...

Верно. И это нужно учитывать.

в общем случае это нереализуемо на автомате
Нажмите, чтобы раскрыть...

Реализуемо на 95%

Конкретно по сабжу:

1. Дизасм у Олли хороший, можно его улучшить. Например переделать эвристику, добавить поиск сигнатур частых кусков кода, анализировать фиксапы(если есть).

2. Вообще улучшать можно практически до бесконечности... Прикрутить эмулятор, трейсер... В зависимости от того, зачем это и к чему...

dermatolog · 25 авг 2009

Killer

Прикрутить эмулятор, трейсер... В зависимости от того, зачем это и к чему...
Нажмите, чтобы раскрыть...

Вроде речь идет про статику - причем тут динамика?

Killer · 25 авг 2009

dermatolog

Ок, тогда сигны заюзать.

Войти или зарегистрироваться

надёжный способ отличить код от данных в pe файле

vladqq New Member

qqwe New Member

qqwe New Member

max7C4 New Member

qqwe New Member

Velheart New Member

max7C4 New Member

qqwe New Member

max7C4 New Member

Stiver Партизан дзена

qqwe New Member

max7C4 New Member

max7C4 New Member

dermatolog Member

Vam New Member

dermatolog Member

Killer New Member

dermatolog Member

Killer New Member

Войти или зарегистрироваться

надёжный способ отличить код от данных в pe файле

vladqq New Member

qqwe New Member

qqwe New Member

max7C4 New Member

qqwe New Member

Velheart New Member

max7C4 New Member

qqwe New Member

max7C4 New Member

Stiver Партизан дзена

qqwe New Member

max7C4 New Member

max7C4 New Member

dermatolog Member

Vam New Member

dermatolog Member

Killer New Member

dermatolog Member

Killer New Member

Быстрый поиск