распознавание кодировки

ker · Post by **ker** » Thu Jun 21, 2012 1:03 pm

У меня такой вопрос возник, а можно ли распознавание кодировки сделать более универсальным, например кириллицу и европейскую в одно объединить? Сильно ли точность пострадает?

Instructor · Post by **Instructor** » Sat Jun 23, 2012 4:32 am

ker
Распознавание кодировки как раз основано на разделении языков, их объединение идет вразрез с самим принципом распознавания.

ker · Post by **ker** » Sun Jun 24, 2012 5:07 am

вот как.. спасибо за разъяснение, у меня просто стоит еще просмотрщик veiw64, я им как то открыл текст один, смотрю а он там кодировку определил как 1252 western, и это помогло понять почему иногда в некоторых файлах корякозябры возникают. Что то видать у него там хитрое написано тогда

guest13 · Post by **guest13** » Mon Aug 27, 2012 10:13 am

Instructor · Post by **Instructor** » Mon Aug 27, 2012 2:58 pm

guest13
Т.е., если вопрос вами сформулирован верно, то, набрав сейчас текст в этом файле на русском и сохранив в UTF-8, то получим непонятные символы?

Или вы всетаки имели ввиду: "у меня были русские символы, кто-то что-то сделал, на выходе получились непонятные символы и теперь не знаю как вернуть обратно"?

guest13 · Post by **guest13** » Tue Aug 28, 2012 8:48 am

Instructor · Post by **Instructor** » Tue Aug 28, 2012 9:10 am

guest13
Вы можете выложить или выслать этот файл?

guest13 · Post by **guest13** » Tue Aug 28, 2012 12:25 pm

Instructor · Post by **Instructor** » Tue Aug 28, 2012 2:20 pm

guest13
Никаких сложностей с сохранением в файл не вижу. Открыл как UTF-8, набрал русский текст среди каракуль, сохранил, переоткрыл, набранный русский текст отображается нормально.

guest13 · Post by **guest13** » Tue Aug 28, 2012 6:49 pm

Instructor · Post by **Instructor** » Wed Aug 29, 2012 4:15 am

guest13
Даже, если тот кто так "закодировал" впомнит последовательность перекодировок, нельзя быть уверенным, что обратное перекодирование поможет, т.к. часто выбранное направление перекодирования необратимо.

DV · Post by DV » Mon Apr 14, 2014 7:52 pm

Информация к размышлению:
https://pypi.python.org/pypi/chardet
https://github.com/batterseapower/libcharsetdetect
Сразу подумалось, что это ж можно к AkelPad крутой плагин по распознаванию кодировок сделать

DV · Post by DV » Tue Apr 15, 2014 7:59 am

DV,
Однако же, практическое использование показало, что не всё так лучезарно. Сам подход, конечно, весьма и весьма интересен, однако на элементарном файле с кириллицей cp1251 этот алгоритм почему-то выдал в результате кодировку MacCyrillic - причём с каждой новой строкой перевес в сторону MacCyrillic был всё больше. И, что самое обидное, "споткнулось" определение кодировки на первых (заглавных) буквах предложений, по какой-то причине посчитав их чем-то вроде кавычек из MacCyrillic. То есть "весовые" таблицы символов всё-таки не совершенны.

FeyFre · Post by **FeyFre** » Tue Apr 15, 2014 3:07 pm

DV, там написано что кириллица только Болгарский.
Весовые таблицы символов помогают определять язык, а не собственно кодировку. Да и работают на текстах по больше. Да и построить таблицу которая хорошо бы работала - дилетантам которые занимались указанной либой не под силу. Уж очень прикладное направление и нужно привлекать действительно специалистов.

Scrapmetay · Post by **Scrapmetay** » Tue Nov 11, 2014 4:17 am

Такой вопрос: почему в General → Codepage recognition выбирается только одна кодировка?

Если файл не с ней, то алгоритм ведь должен распознавать какая ближе всего. Я так понимаю, такой список, как там, мог бы указать к каким склоняться, по приоритетам? Ведь склоняться можно не только к одной....

А у меня получается так, что он эту выбранную только и устанавливает. А собственно распознавать не берётся.