Может кто в курсе есть какиенибудь утилиты, или веб сервисы которые моглибы определить кодировку строки, текстового файла и.т.д. Есть строчка "ã¢â‚¬å¡oã¢â‚¬å¡bã¦â?™ã¥â ã¦â?™ã¢â‚¬å¡ã¢â[ã¦â?™" а чья это кодировка не известно. Точно не кирилица и не английский, может какойнибудь китайский турецкий или еще хз чей.
Это явно DBСS. Лучше всего подходит Shift-JIS, однако, насколько я понимаю в японском, текст получается бессмысленный (см. аттач). Дай больше текста для анализа и приаттачь файл, а не копируй строчку в Windows-1252. У тебя один байт потерялся (в Опере он отображается как знак вопроса в ромбе между буквами ã¢â и [ã¦).
Вот и мне онлайн определитель сказал что это UTF-8 Смысл текста значения не имеет. Вот поубирал весь мусор с файлика оставил только одну строку. http://rapidshare.de/files/34612114/CODE_WHAT.txt.html Не нашел как приатачить файл поэтому залил на рапиду.
Что-то ничего осмысленного не выходит. Рассказывай поподробнее 1) откуда файлик и 2) почему ты решил что это текст?
Файлик от меня, сам зделал и записал. Потамучто в текстовой базе находится, все английской кроме воттаких нескольких строчек.
т.е. ты сам не знаешь, что туда записал, и хочешь, чтобы это было в какой-то кодировке?... а вообще, если честно, то приведенный тобою текст уже находиться в юникоде при отображении, не все символы из ANSI, если все же текст не просто бессмыслица, которую ты создал, а действительной какой-то текст, будь добр, выложи дамп в хексе, я проверю, что за кодировка =). и еще совет - MultiByteToUnicode с флагом MB_ERR_INVALID_CHARS и в цикле организуй перебор всех кодировок (тупо от 0 (CP_ACP) до самого конца =). если кодировка не верна, GetLastError вернет ERROR_NO_UNICODE_TRANSLATION, единственной проблемой в этом цикле может оказаться то, что когда кодировка будет верна (т.е. ты перебором наткнешься на CP_x3kakaya), GetLastError не изменит значение предыдущего флага, а он 100% будет ERROR_NO_UNICODE_TRANSLATION, поэтому после каждой проверки либо сам устанавливай SetLastError отличный от данного, либо смотри по возвращаемому значению функции MultiByteToUnicode, который обычно равен нулю, если кодировка не верна... НО! лучше все же через GetLastError, ибо первые несколько байт могут подходить под другую кодировку, и в этом случае MultiByteToUnicode вернет количество этих "псевдоподходящих" символов.
DzheiKa Спасибо конечно за справку, но малость позновато на пару месяцев. Я немножко по другому вышел из ситуации.
PaCHER И все же мне интересно, что там было =)) я просто японский изучаю.. если что, то мог бы и перевести =)
PaCHER Я лично сам изучаю, а вот некоторым моим знакомым повезло больше - они его в школе учили =). кстати, по той ссылке ты максимум скачаешь yarxi - один из самым известных электронных словарей японского языка, так же можешь поискать Jardic & lingvo japan dictionary. А перевод таков: - Эта строка с символами скорее всего не на японском языке. - А, вот как, понятно =).
Ну почему - ещё + оригинальная авторская методика ассоциативного запоминания В англоязычной версии он пошёл дальше, но на мой вгляд в перебор, а японская версия - прикольная
О, у меня подобная проблема. Пришло письмо из каталога DMOZ п≤п²п║п╒п═пёп п╕п≤п≤ - п©п╬п╤п╟п╩я┐п╧я│я┌п╟, п©я─п╬я┤я┌п╦я┌п╣ п╡п╫п╦п╪п╟я┌п╣п╩я▄п╫п╬ п╦ я│п╩п╣п╢я┐п╧я┌п╣ п╦п╪. п■п╩я▐ п╥п╟п╡п╣я─я┬п╣п╫п╦я▐ п©я─п╬я├п╣я│я│п╟ я─п╣пЁп╦я│я┌я─п╟я├п╦п╦, п©п╬п╤п╟п╩я┐п╧я│я┌п╟, п╬я┌п╡п╣я┌я▄я┌п╣ п╫п╟ я█я┌п╬ п©п╦я│я▄п╪п╬. п╜я┌п╬ п╢п╟я│я┌ п╫п╟п╪ п©п╬п╢я┌п╡п╣я─п╤п╢п╣п╫п╦п╣, я┤я┌п╬ я┐ п╫п╟я│ п╦п╪п╣п╣я┌я│я▐ п©я─п╟п╡п╦п╩я▄п╫я▀п╧ п╟п╢я─п╣я│ п▓п╟я┬п╣п╧ я█п╩п╣п╨я┌я─п╬п╫п╫п╬п╧ п©п╬я┤я┌я▀. п²п╣ п╪п╣п╫я▐п╧я┌п╣ я│я┌я─п╬п╨я┐ п╒п╣п╪п╟: -- п╬п╫п╟ я│п╬п╢п╣я─п╤п╦я┌ п▓п╟я┬ я─п╣пЁп╦я│я┌я─п╟я├п╦п╬п╫п╫я▀п╧ п╨п╬п╢. Это в моем оутлуке открывается. ПОмогите, люди добрые!
Спасибо огромное! А почему когда я в Оутлуке выславляю UTF-8 для этого письма, оно все равное не читается? Какой сервис можно использовать для прочтения?