Page 1 of 1

распознавание кодировки

Posted: Thu Jun 21, 2012 1:03 pm
by ker
У меня такой вопрос возник, а можно ли распознавание кодировки сделать более универсальным, например кириллицу и европейскую в одно объединить? Сильно ли точность пострадает?

Posted: Sat Jun 23, 2012 4:32 am
by Instructor
ker
Распознавание кодировки как раз основано на разделении языков, их объединение идет вразрез с самим принципом распознавания.

Posted: Sun Jun 24, 2012 5:07 am
by ker
вот как.. спасибо за разъяснение, у меня просто стоит еще просмотрщик veiw64, я им как то открыл текст один, смотрю а он там кодировку определил как 1252 western, и это помогло понять почему иногда в некоторых файлах корякозябры возникают. Что то видать у него там хитрое написано тогда :)

Posted: Mon Aug 27, 2012 10:13 am
by guest13
..

Posted: Mon Aug 27, 2012 2:58 pm
by Instructor
guest13
Т.е., если вопрос вами сформулирован верно, то, набрав сейчас текст в этом файле на русском и сохранив в UTF-8, то получим непонятные символы?

Или вы всетаки имели ввиду: "у меня были русские символы, кто-то что-то сделал, на выходе получились непонятные символы и теперь не знаю как вернуть обратно"?

Posted: Tue Aug 28, 2012 8:48 am
by guest13
..

Posted: Tue Aug 28, 2012 9:10 am
by Instructor
guest13
Вы можете выложить или выслать этот файл?

Posted: Tue Aug 28, 2012 12:25 pm
by guest13
..

Posted: Tue Aug 28, 2012 2:20 pm
by Instructor
guest13
Никаких сложностей с сохранением в файл не вижу. Открыл как UTF-8, набрал русский текст среди каракуль, сохранил, переоткрыл, набранный русский текст отображается нормально.

Posted: Tue Aug 28, 2012 6:49 pm
by guest13
..

Posted: Wed Aug 29, 2012 4:15 am
by Instructor
guest13
Даже, если тот кто так "закодировал" впомнит последовательность перекодировок, нельзя быть уверенным, что обратное перекодирование поможет, т.к. часто выбранное направление перекодирования необратимо.

Posted: Mon Apr 14, 2014 7:52 pm
by DV
Информация к размышлению:
https://pypi.python.org/pypi/chardet
https://github.com/batterseapower/libcharsetdetect
Сразу подумалось, что это ж можно к AkelPad крутой плагин по распознаванию кодировок сделать :)

Posted: Tue Apr 15, 2014 7:59 am
by DV
DV,
Однако же, практическое использование показало, что не всё так лучезарно. Сам подход, конечно, весьма и весьма интересен, однако на элементарном файле с кириллицей cp1251 этот алгоритм почему-то выдал в результате кодировку MacCyrillic - причём с каждой новой строкой перевес в сторону MacCyrillic был всё больше. И, что самое обидное, "споткнулось" определение кодировки на первых (заглавных) буквах предложений, по какой-то причине посчитав их чем-то вроде кавычек из MacCyrillic. То есть "весовые" таблицы символов всё-таки не совершенны.

Posted: Tue Apr 15, 2014 3:07 pm
by FeyFre
DV, там написано что кириллица только Болгарский.
Весовые таблицы символов помогают определять язык, а не собственно кодировку. Да и работают на текстах по больше. Да и построить таблицу которая хорошо бы работала - дилетантам которые занимались указанной либой не под силу. Уж очень прикладное направление и нужно привлекать действительно специалистов.

Posted: Tue Nov 11, 2014 4:17 am
by Scrapmetay
Такой вопрос: почему в General → Codepage recognition выбирается только одна кодировка?

Если файл не с ней, то алгоритм ведь должен распознавать какая ближе всего. Я так понимаю, такой список, как там, мог бы указать к каким склоняться, по приоритетам? Ведь склоняться можно не только к одной....

А у меня получается так, что он эту выбранную только и устанавливает. А собственно распознавать не берётся.