распознавание кодировки
- Author
- Message
-
Offline
- Posts: 7
- Joined: Thu Mar 29, 2012 4:32 am
распознавание кодировки
У меня такой вопрос возник, а можно ли распознавание кодировки сделать более универсальным, например кириллицу и европейскую в одно объединить? Сильно ли точность пострадает?
-
Offline
- Posts: 7
- Joined: Thu Mar 29, 2012 4:32 am
-
Offline
- Site Admin
- Posts: 6311
- Joined: Thu Jul 06, 2006 7:20 am
guest13
Т.е., если вопрос вами сформулирован верно, то, набрав сейчас текст в этом файле на русском и сохранив в UTF-8, то получим непонятные символы?
Или вы всетаки имели ввиду: "у меня были русские символы, кто-то что-то сделал, на выходе получились непонятные символы и теперь не знаю как вернуть обратно"?
Т.е., если вопрос вами сформулирован верно, то, набрав сейчас текст в этом файле на русском и сохранив в UTF-8, то получим непонятные символы?
Или вы всетаки имели ввиду: "у меня были русские символы, кто-то что-то сделал, на выходе получились непонятные символы и теперь не знаю как вернуть обратно"?
-
Offline
- Posts: 1250
- Joined: Thu Nov 16, 2006 11:53 am
- Location: Kyiv, Ukraine
Информация к размышлению:
https://pypi.python.org/pypi/chardet
https://github.com/batterseapower/libcharsetdetect
Сразу подумалось, что это ж можно к AkelPad крутой плагин по распознаванию кодировок сделать
https://pypi.python.org/pypi/chardet
https://github.com/batterseapower/libcharsetdetect
Сразу подумалось, что это ж можно к AkelPad крутой плагин по распознаванию кодировок сделать
-
Offline
- Posts: 1250
- Joined: Thu Nov 16, 2006 11:53 am
- Location: Kyiv, Ukraine
DV,
Однако же, практическое использование показало, что не всё так лучезарно. Сам подход, конечно, весьма и весьма интересен, однако на элементарном файле с кириллицей cp1251 этот алгоритм почему-то выдал в результате кодировку MacCyrillic - причём с каждой новой строкой перевес в сторону MacCyrillic был всё больше. И, что самое обидное, "споткнулось" определение кодировки на первых (заглавных) буквах предложений, по какой-то причине посчитав их чем-то вроде кавычек из MacCyrillic. То есть "весовые" таблицы символов всё-таки не совершенны.
Однако же, практическое использование показало, что не всё так лучезарно. Сам подход, конечно, весьма и весьма интересен, однако на элементарном файле с кириллицей cp1251 этот алгоритм почему-то выдал в результате кодировку MacCyrillic - причём с каждой новой строкой перевес в сторону MacCyrillic был всё больше. И, что самое обидное, "споткнулось" определение кодировки на первых (заглавных) буквах предложений, по какой-то причине посчитав их чем-то вроде кавычек из MacCyrillic. То есть "весовые" таблицы символов всё-таки не совершенны.
-
Offline
- Posts: 2247
- Joined: Tue Aug 07, 2007 2:03 pm
- Location: Vinnitsa, Ukraine
DV, там написано что кириллица только Болгарский.
Весовые таблицы символов помогают определять язык, а не собственно кодировку. Да и работают на текстах по больше. Да и построить таблицу которая хорошо бы работала - дилетантам которые занимались указанной либой не под силу. Уж очень прикладное направление и нужно привлекать действительно специалистов.
Весовые таблицы символов помогают определять язык, а не собственно кодировку. Да и работают на текстах по больше. Да и построить таблицу которая хорошо бы работала - дилетантам которые занимались указанной либой не под силу. Уж очень прикладное направление и нужно привлекать действительно специалистов.
-
Offline
- Posts: 71
- Joined: Tue Nov 11, 2014 12:21 am
Такой вопрос: почему в General → Codepage recognition выбирается только одна кодировка?
Если файл не с ней, то алгоритм ведь должен распознавать какая ближе всего. Я так понимаю, такой список, как там, мог бы указать к каким склоняться, по приоритетам? Ведь склоняться можно не только к одной....
А у меня получается так, что он эту выбранную только и устанавливает. А собственно распознавать не берётся.
Если файл не с ней, то алгоритм ведь должен распознавать какая ближе всего. Я так понимаю, такой список, как там, мог бы указать к каким склоняться, по приоритетам? Ведь склоняться можно не только к одной....
А у меня получается так, что он эту выбранную только и устанавливает. А собственно распознавать не берётся.