AkelPad

Posted: **Thu Jun 21, 2012 1:03 pm**

У меня такой вопрос возник, а можно ли распознавание кодировки сделать более универсальным, например кириллицу и европейскую в одно объединить? Сильно ли точность пострадает?

Posted: **Sat Jun 23, 2012 4:32 am**

ker
Распознавание кодировки как раз основано на разделении языков, их объединение идет вразрез с самим принципом распознавания.

Posted: **Sun Jun 24, 2012 5:07 am**

вот как.. спасибо за разъяснение, у меня просто стоит еще просмотрщик veiw64, я им как то открыл текст один, смотрю а он там кодировку определил как 1252 western, и это помогло понять почему иногда в некоторых файлах корякозябры возникают. Что то видать у него там хитрое написано тогда

Posted: **Mon Aug 27, 2012 10:13 am**

Posted: **Mon Aug 27, 2012 2:58 pm**

guest13
Т.е., если вопрос вами сформулирован верно, то, набрав сейчас текст в этом файле на русском и сохранив в UTF-8, то получим непонятные символы?

Или вы всетаки имели ввиду: "у меня были русские символы, кто-то что-то сделал, на выходе получились непонятные символы и теперь не знаю как вернуть обратно"?

Posted: **Tue Aug 28, 2012 8:48 am**

Posted: **Tue Aug 28, 2012 9:10 am**

guest13
Вы можете выложить или выслать этот файл?

Posted: **Tue Aug 28, 2012 12:25 pm**

Posted: **Tue Aug 28, 2012 2:20 pm**

guest13
Никаких сложностей с сохранением в файл не вижу. Открыл как UTF-8, набрал русский текст среди каракуль, сохранил, переоткрыл, набранный русский текст отображается нормально.

Posted: **Tue Aug 28, 2012 6:49 pm**

Posted: **Wed Aug 29, 2012 4:15 am**

guest13
Даже, если тот кто так "закодировал" впомнит последовательность перекодировок, нельзя быть уверенным, что обратное перекодирование поможет, т.к. часто выбранное направление перекодирования необратимо.

Posted: **Mon Apr 14, 2014 7:52 pm**

Информация к размышлению:
https://pypi.python.org/pypi/chardet
https://github.com/batterseapower/libcharsetdetect
Сразу подумалось, что это ж можно к AkelPad крутой плагин по распознаванию кодировок сделать

Posted: **Tue Apr 15, 2014 7:59 am**

DV,
Однако же, практическое использование показало, что не всё так лучезарно. Сам подход, конечно, весьма и весьма интересен, однако на элементарном файле с кириллицей cp1251 этот алгоритм почему-то выдал в результате кодировку MacCyrillic - причём с каждой новой строкой перевес в сторону MacCyrillic был всё больше. И, что самое обидное, "споткнулось" определение кодировки на первых (заглавных) буквах предложений, по какой-то причине посчитав их чем-то вроде кавычек из MacCyrillic. То есть "весовые" таблицы символов всё-таки не совершенны.

Posted: **Tue Apr 15, 2014 3:07 pm**

DV, там написано что кириллица только Болгарский.
Весовые таблицы символов помогают определять язык, а не собственно кодировку. Да и работают на текстах по больше. Да и построить таблицу которая хорошо бы работала - дилетантам которые занимались указанной либой не под силу. Уж очень прикладное направление и нужно привлекать действительно специалистов.

Posted: **Tue Nov 11, 2014 4:17 am**

Такой вопрос: почему в General → Codepage recognition выбирается только одна кодировка?

Если файл не с ней, то алгоритм ведь должен распознавать какая ближе всего. Я так понимаю, такой список, как там, мог бы указать к каким склоняться, по приоритетам? Ведь склоняться можно не только к одной....

А у меня получается так, что он эту выбранную только и устанавливает. А собственно распознавать не берётся.