Определение кодировки

Discussion in 'WASM.SOFTWARE' started by PaCHER, Sep 25, 2006.

  1. PaCHER

    PaCHER New Member

    Blog Posts:
    0
    Joined:
    Mar 25, 2006
    Messages:
    852
    Может кто в курсе есть какиенибудь утилиты, или веб сервисы которые моглибы определить кодировку строки, текстового файла и.т.д.
    Есть строчка "ã¢â‚¬å¡oã¢â‚¬å¡bã¦â?™ã¥â ã¦â?™ã¢â‚¬å¡ã¢â[ã¦â?™" а чья это кодировка не известно. Точно не кирилица и не английский, может какойнибудь китайский турецкий или еще хз чей.
     
  2. SDragon

    SDragon New Member

    Blog Posts:
    0
    Joined:
    Jun 6, 2005
    Messages:
    133
    Location:
    Siberia
    Это явно DBСS. Лучше всего подходит Shift-JIS, однако, насколько я понимаю в японском, текст получается бессмысленный (см. аттач).

    Дай больше текста для анализа и приаттачь файл, а не копируй строчку в Windows-1252. У тебя один байт потерялся (в Опере он отображается как знак вопроса в ромбе между буквами ã¢â и [ã¦).
     
  3. reverser

    reverser New Member

    Blog Posts:
    0
    Joined:
    Jan 27, 2004
    Messages:
    615
    Не, это не SJIS однозначно. Возможно испорченный UTF-8.
     
  4. gazlan

    gazlan Member

    Blog Posts:
    0
    Joined:
    May 22, 2005
    Messages:
    414
    для кириллических текстов (многократное перекодирование итд) хорош Штирлиц 4.01 (линка нет).
     
  5. PaCHER

    PaCHER New Member

    Blog Posts:
    0
    Joined:
    Mar 25, 2006
    Messages:
    852
    Вот и мне онлайн определитель сказал что это UTF-8
    Смысл текста значения не имеет.
    Вот поубирал весь мусор с файлика оставил только одну строку.
    http://rapidshare.de/files/34612114/CODE_WHAT.txt.html
    Не нашел как приатачить файл поэтому залил на рапиду.
     
  6. reverser

    reverser New Member

    Blog Posts:
    0
    Joined:
    Jan 27, 2004
    Messages:
    615
    Что-то ничего осмысленного не выходит. Рассказывай поподробнее 1) откуда файлик и 2) почему ты решил что это текст?
     
  7. PaCHER

    PaCHER New Member

    Blog Posts:
    0
    Joined:
    Mar 25, 2006
    Messages:
    852
    Файлик от меня, сам зделал и записал.
    Потамучто в текстовой базе находится, все английской кроме воттаких нескольких строчек.
     
  8. DzheiKa

    DzheiKa New Member

    Blog Posts:
    0
    Joined:
    May 29, 2006
    Messages:
    13
    т.е. ты сам не знаешь, что туда записал, и хочешь, чтобы это было в какой-то кодировке?... а вообще, если честно, то приведенный тобою текст уже находиться в юникоде при отображении, не все символы из ANSI, если все же текст не просто бессмыслица, которую ты создал, а действительной какой-то текст, будь добр, выложи дамп в хексе, я проверю, что за кодировка =).
    и еще совет - MultiByteToUnicode с флагом MB_ERR_INVALID_CHARS и в цикле организуй перебор всех кодировок (тупо от 0 (CP_ACP) до самого конца =). если кодировка не верна, GetLastError вернет ERROR_NO_UNICODE_TRANSLATION, единственной проблемой в этом цикле может оказаться то, что когда кодировка будет верна (т.е. ты перебором наткнешься на CP_x3kakaya), GetLastError не изменит значение предыдущего флага, а он 100% будет ERROR_NO_UNICODE_TRANSLATION, поэтому после каждой проверки либо сам устанавливай SetLastError отличный от данного, либо смотри по возвращаемому значению функции MultiByteToUnicode, который обычно равен нулю, если кодировка не верна... НО! лучше все же через GetLastError, ибо первые несколько байт могут подходить под другую кодировку, и в этом случае MultiByteToUnicode вернет количество этих "псевдоподходящих" символов.
     
  9. PaCHER

    PaCHER New Member

    Blog Posts:
    0
    Joined:
    Mar 25, 2006
    Messages:
    852
    DzheiKa
    Спасибо конечно за справку, но малость позновато на пару месяцев.
    Я немножко по другому вышел из ситуации.
     
  10. DzheiKa

    DzheiKa New Member

    Blog Posts:
    0
    Joined:
    May 29, 2006
    Messages:
    13
    PaCHER
    И все же мне интересно, что там было =)) я просто японский изучаю.. если что, то мог бы и перевести =)
     
  11. reverser

    reverser New Member

    Blog Posts:
    0
    Joined:
    Jan 27, 2004
    Messages:
    615
    その文字列は日本語じゃないはずだろう
     
  12. DzheiKa

    DzheiKa New Member

    Blog Posts:
    0
    Joined:
    May 29, 2006
    Messages:
    13
    ああ、そうですか、分かったよう。
     
  13. PaCHER

    PaCHER New Member

    Blog Posts:
    0
    Joined:
    Mar 25, 2006
    Messages:
    852
    А перевод :)
    Если нужно файлик выложу.
    А где японскому учят?
     
  14. Y_Mur

    Y_Mur Active Member

    Blog Posts:
    0
    Joined:
    Sep 6, 2006
    Messages:
    2,494
    PaCHER
    Например здесь
     
  15. DzheiKa

    DzheiKa New Member

    Blog Posts:
    0
    Joined:
    May 29, 2006
    Messages:
    13
    PaCHER
    Я лично сам изучаю, а вот некоторым моим знакомым повезло больше - они его в школе учили =).
    кстати, по той ссылке ты максимум скачаешь yarxi - один из самым известных электронных словарей японского языка, так же можешь поискать Jardic & lingvo japan dictionary.

    А перевод таков:
    - Эта строка с символами скорее всего не на японском языке.
    - А, вот как, понятно =).
     
  16. Y_Mur

    Y_Mur Active Member

    Blog Posts:
    0
    Joined:
    Sep 6, 2006
    Messages:
    2,494
    Ну почему - ещё + оригинальная авторская методика ассоциативного запоминания :)
    В англоязычной версии он пошёл дальше, но на мой вгляд в перебор, а японская версия - прикольная :)
     
  17. DzheiKa

    DzheiKa New Member

    Blog Posts:
    0
    Joined:
    May 29, 2006
    Messages:
    13
    попой чую, что пошел оффтоп ... гг =)
     
  18. Georgio

    Georgio New Member

    Blog Posts:
    0
    Joined:
    Jan 17, 2008
    Messages:
    2
    О, у меня подобная проблема.

    Пришло письмо из каталога DMOZ

    п≤п²п║п╒п═пёп п╕п≤п≤ - п©п╬п╤п╟п╩я┐п╧я│я┌п╟, п©я─п╬я┤я┌п╦я┌п╣ п╡п╫п╦п╪п╟я┌п╣п╩я▄п╫п╬ п╦ я│п╩п╣п╢я┐п╧я┌п╣ п╦п╪.

    п■п╩я▐ п╥п╟п╡п╣я─я┬п╣п╫п╦я▐ п©я─п╬я├п╣я│я│п╟ я─п╣пЁп╦я│я┌я─п╟я├п╦п╦, п©п╬п╤п╟п╩я┐п╧я│я┌п╟, п╬я┌п╡п╣я┌я▄я┌п╣ п╫п╟ я█я┌п╬ п©п╦я│я▄п╪п╬. п╜я┌п╬ п╢п╟я│я┌ п╫п╟п╪ п©п╬п╢я┌п╡п╣я─п╤п╢п╣п╫п╦п╣, я┤я┌п╬ я┐ п╫п╟я│ п╦п╪п╣п╣я┌я│я▐ п©я─п╟п╡п╦п╩я▄п╫я▀п╧ п╟п╢я─п╣я│ п▓п╟я┬п╣п╧ я█п╩п╣п╨я┌я─п╬п╫п╫п╬п╧ п©п╬я┤я┌я▀.

    п²п╣ п╪п╣п╫я▐п╧я┌п╣ я│я┌я─п╬п╨я┐ п╒п╣п╪п╟: -- п╬п╫п╟ я│п╬п╢п╣я─п╤п╦я┌ п▓п╟я┬ я─п╣пЁп╦я│я┌я─п╟я├п╦п╬п╫п╫я▀п╧ п╨п╬п╢.

    Это в моем оутлуке открывается.

    ПОмогите, люди добрые!
     
  19. reverser

    reverser New Member

    Blog Posts:
    0
    Joined:
    Jan 27, 2004
    Messages:
    615
    P.S. UTF-8 -> KOI8-R.
     
  20. Georgio

    Georgio New Member

    Blog Posts:
    0
    Joined:
    Jan 17, 2008
    Messages:
    2
    Спасибо огромное!

    А почему когда я в Оутлуке выславляю UTF-8 для этого письма, оно все равное не читается?

    Какой сервис можно использовать для прочтения? :)