Определение кодировки

Тема в разделе "WASM.SOFTWARE", создана пользователем PaCHER, 25 сен 2006.

  1. PaCHER

    PaCHER New Member

    Публикаций:
    0
    Регистрация:
    25 мар 2006
    Сообщения:
    852
    Может кто в курсе есть какиенибудь утилиты, или веб сервисы которые моглибы определить кодировку строки, текстового файла и.т.д.
    Есть строчка "ã¢â‚¬å¡oã¢â‚¬å¡bã¦â?™ã¥â ã¦â?™ã¢â‚¬å¡ã¢â[ã¦â?™" а чья это кодировка не известно. Точно не кирилица и не английский, может какойнибудь китайский турецкий или еще хз чей.
     
  2. SDragon

    SDragon New Member

    Публикаций:
    0
    Регистрация:
    6 июн 2005
    Сообщения:
    133
    Адрес:
    Siberia
    Это явно DBСS. Лучше всего подходит Shift-JIS, однако, насколько я понимаю в японском, текст получается бессмысленный (см. аттач).

    Дай больше текста для анализа и приаттачь файл, а не копируй строчку в Windows-1252. У тебя один байт потерялся (в Опере он отображается как знак вопроса в ромбе между буквами ã¢â и [ã¦).
     
  3. reverser

    reverser New Member

    Публикаций:
    0
    Регистрация:
    27 янв 2004
    Сообщения:
    615
    Не, это не SJIS однозначно. Возможно испорченный UTF-8.
     
  4. gazlan

    gazlan Member

    Публикаций:
    0
    Регистрация:
    22 май 2005
    Сообщения:
    414
    для кириллических текстов (многократное перекодирование итд) хорош Штирлиц 4.01 (линка нет).
     
  5. PaCHER

    PaCHER New Member

    Публикаций:
    0
    Регистрация:
    25 мар 2006
    Сообщения:
    852
    Вот и мне онлайн определитель сказал что это UTF-8
    Смысл текста значения не имеет.
    Вот поубирал весь мусор с файлика оставил только одну строку.
    http://rapidshare.de/files/34612114/CODE_WHAT.txt.html
    Не нашел как приатачить файл поэтому залил на рапиду.
     
  6. reverser

    reverser New Member

    Публикаций:
    0
    Регистрация:
    27 янв 2004
    Сообщения:
    615
    Что-то ничего осмысленного не выходит. Рассказывай поподробнее 1) откуда файлик и 2) почему ты решил что это текст?
     
  7. PaCHER

    PaCHER New Member

    Публикаций:
    0
    Регистрация:
    25 мар 2006
    Сообщения:
    852
    Файлик от меня, сам зделал и записал.
    Потамучто в текстовой базе находится, все английской кроме воттаких нескольких строчек.
     
  8. DzheiKa

    DzheiKa New Member

    Публикаций:
    0
    Регистрация:
    29 май 2006
    Сообщения:
    13
    т.е. ты сам не знаешь, что туда записал, и хочешь, чтобы это было в какой-то кодировке?... а вообще, если честно, то приведенный тобою текст уже находиться в юникоде при отображении, не все символы из ANSI, если все же текст не просто бессмыслица, которую ты создал, а действительной какой-то текст, будь добр, выложи дамп в хексе, я проверю, что за кодировка =).
    и еще совет - MultiByteToUnicode с флагом MB_ERR_INVALID_CHARS и в цикле организуй перебор всех кодировок (тупо от 0 (CP_ACP) до самого конца =). если кодировка не верна, GetLastError вернет ERROR_NO_UNICODE_TRANSLATION, единственной проблемой в этом цикле может оказаться то, что когда кодировка будет верна (т.е. ты перебором наткнешься на CP_x3kakaya), GetLastError не изменит значение предыдущего флага, а он 100% будет ERROR_NO_UNICODE_TRANSLATION, поэтому после каждой проверки либо сам устанавливай SetLastError отличный от данного, либо смотри по возвращаемому значению функции MultiByteToUnicode, который обычно равен нулю, если кодировка не верна... НО! лучше все же через GetLastError, ибо первые несколько байт могут подходить под другую кодировку, и в этом случае MultiByteToUnicode вернет количество этих "псевдоподходящих" символов.
     
  9. PaCHER

    PaCHER New Member

    Публикаций:
    0
    Регистрация:
    25 мар 2006
    Сообщения:
    852
    DzheiKa
    Спасибо конечно за справку, но малость позновато на пару месяцев.
    Я немножко по другому вышел из ситуации.
     
  10. DzheiKa

    DzheiKa New Member

    Публикаций:
    0
    Регистрация:
    29 май 2006
    Сообщения:
    13
    PaCHER
    И все же мне интересно, что там было =)) я просто японский изучаю.. если что, то мог бы и перевести =)
     
  11. reverser

    reverser New Member

    Публикаций:
    0
    Регистрация:
    27 янв 2004
    Сообщения:
    615
    その文字列は日本語じゃないはずだろう
     
  12. DzheiKa

    DzheiKa New Member

    Публикаций:
    0
    Регистрация:
    29 май 2006
    Сообщения:
    13
    ああ、そうですか、分かったよう。
     
  13. PaCHER

    PaCHER New Member

    Публикаций:
    0
    Регистрация:
    25 мар 2006
    Сообщения:
    852
    А перевод :)
    Если нужно файлик выложу.
    А где японскому учят?
     
  14. Y_Mur

    Y_Mur Active Member

    Публикаций:
    0
    Регистрация:
    6 сен 2006
    Сообщения:
    2.494
    PaCHER
    Например здесь
     
  15. DzheiKa

    DzheiKa New Member

    Публикаций:
    0
    Регистрация:
    29 май 2006
    Сообщения:
    13
    PaCHER
    Я лично сам изучаю, а вот некоторым моим знакомым повезло больше - они его в школе учили =).
    кстати, по той ссылке ты максимум скачаешь yarxi - один из самым известных электронных словарей японского языка, так же можешь поискать Jardic & lingvo japan dictionary.

    А перевод таков:
    - Эта строка с символами скорее всего не на японском языке.
    - А, вот как, понятно =).
     
  16. Y_Mur

    Y_Mur Active Member

    Публикаций:
    0
    Регистрация:
    6 сен 2006
    Сообщения:
    2.494
    Ну почему - ещё + оригинальная авторская методика ассоциативного запоминания :)
    В англоязычной версии он пошёл дальше, но на мой вгляд в перебор, а японская версия - прикольная :)
     
  17. DzheiKa

    DzheiKa New Member

    Публикаций:
    0
    Регистрация:
    29 май 2006
    Сообщения:
    13
    попой чую, что пошел оффтоп ... гг =)
     
  18. Georgio

    Georgio New Member

    Публикаций:
    0
    Регистрация:
    17 янв 2008
    Сообщения:
    2
    О, у меня подобная проблема.

    Пришло письмо из каталога DMOZ

    п≤п²п║п╒п═пёп п╕п≤п≤ - п©п╬п╤п╟п╩я┐п╧я│я┌п╟, п©я─п╬я┤я┌п╦я┌п╣ п╡п╫п╦п╪п╟я┌п╣п╩я▄п╫п╬ п╦ я│п╩п╣п╢я┐п╧я┌п╣ п╦п╪.

    п■п╩я▐ п╥п╟п╡п╣я─я┬п╣п╫п╦я▐ п©я─п╬я├п╣я│я│п╟ я─п╣пЁп╦я│я┌я─п╟я├п╦п╦, п©п╬п╤п╟п╩я┐п╧я│я┌п╟, п╬я┌п╡п╣я┌я▄я┌п╣ п╫п╟ я█я┌п╬ п©п╦я│я▄п╪п╬. п╜я┌п╬ п╢п╟я│я┌ п╫п╟п╪ п©п╬п╢я┌п╡п╣я─п╤п╢п╣п╫п╦п╣, я┤я┌п╬ я┐ п╫п╟я│ п╦п╪п╣п╣я┌я│я▐ п©я─п╟п╡п╦п╩я▄п╫я▀п╧ п╟п╢я─п╣я│ п▓п╟я┬п╣п╧ я█п╩п╣п╨я┌я─п╬п╫п╫п╬п╧ п©п╬я┤я┌я▀.

    п²п╣ п╪п╣п╫я▐п╧я┌п╣ я│я┌я─п╬п╨я┐ п╒п╣п╪п╟: -- п╬п╫п╟ я│п╬п╢п╣я─п╤п╦я┌ п▓п╟я┬ я─п╣пЁп╦я│я┌я─п╟я├п╦п╬п╫п╫я▀п╧ п╨п╬п╢.

    Это в моем оутлуке открывается.

    ПОмогите, люди добрые!
     
  19. reverser

    reverser New Member

    Публикаций:
    0
    Регистрация:
    27 янв 2004
    Сообщения:
    615
    P.S. UTF-8 -> KOI8-R.
     
  20. Georgio

    Georgio New Member

    Публикаций:
    0
    Регистрация:
    17 янв 2008
    Сообщения:
    2
    Спасибо огромное!

    А почему когда я в Оутлуке выславляю UTF-8 для этого письма, оно все равное не читается?

    Какой сервис можно использовать для прочтения? :)