алгоритмы распознавания таблиц кои8,866,1251 и их перекодировка

Тема в разделе "WASM.BEGINNERS", создана пользователем dekloper, 11 ноя 2008.

  1. dekloper

    dekloper Member

    Публикаций:
    0
    Регистрация:
    12 июл 2005
    Сообщения:
    85
    Адрес:
    оттуда...
    посоветуйте, плз, оптимальный алгоритм конвертации массива данных в заданную таблицу перекодировки(кои8,866,1251) ??
    как определить заранее неизвесную кодировку входного массива (аля "штирлиц")?
     
  2. _basmp_

    _basmp_ New Member

    Публикаций:
    0
    Регистрация:
    10 июл 2005
    Сообщения:
    2.939
    диапазоны используемых символов? статистика символов?
     
  3. Y_Mur

    Y_Mur Active Member

    Публикаций:
    0
    Регистрация:
    6 сен 2006
    Сообщения:
    2.494
    + проверка по словарю
     
  4. Johnikum

    Johnikum Member

    Публикаций:
    0
    Регистрация:
    6 июн 2003
    Сообщения:
    97
  5. dekloper

    dekloper Member

    Публикаций:
    0
    Регистрация:
    12 июл 2005
    Сообщения:
    85
    Адрес:
    оттуда...
    диапанозы в общем случае, "стандартные" 80-0FFh, но потребуется решение и с юникодом (8 ->16 и обратно)
    слабо пред-ХЗ-уемая.. :dntknw:
    ога, пацыба, почитаю сырцы.., нада переписать на асм нужные места, у меня объёмы большие.. Y_Mur
    :dntknw: не хотелось бы, боюсь сервак приляжет..
     
  6. Pavia

    Pavia Well-Known Member

    Публикаций:
    0
    Регистрация:
    17 июн 2003
    Сообщения:
    2.409
    Адрес:
    Fryazino
    dekloper
    Во-первых я бы посмотрел в сорону http://en.wikipedia.org/wiki/AdaBoost
    А так очень легко собираешь статистику и проверяешь разлиные тесты. Можно просто корреляцию посчитать можно взять вероятности стречи сиволов посчитать сумму для разных кодировок в которой больше наброла та и кодировка. Можно по формуле Байеса сравнить. Можно нейронные сети задействовать.
     
  7. Vov4ick

    Vov4ick Владимир

    Публикаций:
    0
    Регистрация:
    8 окт 2006
    Сообщения:
    581
    Адрес:
    МО
    Подавляющее большинство программ отличают КОИ8 от вендовой наводя статистику использования верхнего\нижнего регистра. Если большинство символов в верхнем регистре, значит кодировка определена неправильно. Естественно, если текст набран в верхнем регистре, кодировка будет определена неправильно.
    Этот метод можно доработать, проверяя регистр первых букв слов. Если первая буква заглавная, а затем идут строчные - кодировка определена верно.
    Отличить вынь\КОИ от нативной не составляет вообще никакой сложности, по набору используемых символов. Правда эти тексты могут содержать псевдографику, которая может сбить алгоритм с толку, но это можно решить анализом последовательностей и стат. обработкой.