Как определить кодировку текста?

Stariy · Sep 7, 2004

subj.

Имеется текст на русском языке, с примесью латинских символов и цифр. Как узнать (программно), в какой он кодировке (ну там 1251, КОИ и т.д.)?

Первое, что пришло в голову - считать частоту использования всех символов, брать самый часто используемый (типа, это буква А) и сравнивать его код с кодом буквы А для всех известных кодировок. Но при маленьком тексте в несколько слов это не сработает.

Можно искать слова по словарю или по окончаниям (ну типа комбинации букв "ющий", "ывший" и т.д.) - но это, по моему, тоже тупизм...

Подкиньте идейку плз...

Stariy · Sep 7, 2004

Как ни странно, но похоже, что этот тупизм работает...

http://ivr.webzone.ru/articles/defcod_2/

Видимо, тему придется закрыть...

ssx · Sep 7, 2004

ага, даже FAR, кажется, так и определяет кодировку

volodya · Sep 7, 2004

А Штирлиц?

S_T_A_S_ · Sep 8, 2004

Дык это не тупизм, так и простые шифры расшифровывают.

Stariy · Sep 8, 2004

Я думал раньше, что есть метод, который дает стопроцентную гарантию, что кодировка определена верно. А тут выходит, что на определенных текстах можно ошибиться... Хы, надо будет попробовать поискать такое слово, которое было бы осмысленным в двух и более кодировках...

Inked Wedge · Sep 8, 2004

2 Stariy

А чего "А" самый частый? Насколько я знаю это "О" самый частый.

А подстановкой шифруют только недоразвитые клоуны, метод определения - частотый анализ ^^^ (вышеописанный "тупизьм"), - срабатывает даже на коротких текстах.

Stariy · Sep 8, 2004

Правильно, "О". Это я ступил малость.

khv_test · Sep 12, 2004

http://www.rusf.ru/books/yo/xcode.html

туть есть прога в которой все реализовано и СРС есть.

Johnikum · Sep 13, 2004

Я думаю определять можно по словам из одной буквы("а", "и"), стоящих между пробелами.

Например:

код "a" CP866 - A0h; utf8 - E0h

код "и" CP866 - A8h; utf8 - E8h

для других не проверял.

только это справедливо для достаточно больших текстов, где встречаются эти союзы.

Log in or Sign up

Как определить кодировку текста?

Stariy Member

Stariy Member

ssx Member

volodya wasm.ru

S_T_A_S_ New Member

Stariy Member

Inked Wedge New Member

Stariy Member

khv_test New Member

Johnikum Member

Log in or Sign up

Как определить кодировку текста?

Stariy Member

Stariy Member

ssx Member

volodya wasm.ru

S_T_A_S_ New Member

Stariy Member

Inked Wedge New Member

Stariy Member

khv_test New Member

Johnikum Member

Useful Searches