AkelPad Forum Index AkelPad
Support forum
 
 FAQFAQ   SearchSearch   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

распознавание кодировки

 
Post new topic   Reply to topic    AkelPad Forum Index -> Discussion (Russian)
View previous topic :: View next topic  
Author Message
ker



Joined: 29 Mar 2012
Posts: 4

PostPosted: Thu Jun 21, 2012 1:03 pm    Post subject: распознавание кодировки Reply with quote

У меня такой вопрос возник, а можно ли распознавание кодировки сделать более универсальным, например кириллицу и европейскую в одно объединить? Сильно ли точность пострадает?
Back to top
View user's profile Send private message
Instructor
Site Admin


Joined: 06 Jul 2006
Posts: 5293

PostPosted: Sat Jun 23, 2012 4:32 am    Post subject: Reply with quote

ker
Распознавание кодировки как раз основано на разделении языков, их объединение идет вразрез с самим принципом распознавания.
Back to top
View user's profile Send private message Send e-mail
ker



Joined: 29 Mar 2012
Posts: 4

PostPosted: Sun Jun 24, 2012 5:07 am    Post subject: Reply with quote

вот как.. спасибо за разъяснение, у меня просто стоит еще просмотрщик veiw64, я им как то открыл текст один, смотрю а он там кодировку определил как 1252 western, и это помогло понять почему иногда в некоторых файлах корякозябры возникают. Что то видать у него там хитрое написано тогда Smile
Back to top
View user's profile Send private message
guest13



Joined: 08 Jun 2012
Posts: 9

PostPosted: Mon Aug 27, 2012 10:13 am    Post subject: Reply with quote

..

Last edited by guest13 on Wed May 28, 2014 1:20 am; edited 1 time in total
Back to top
View user's profile Send private message
Instructor
Site Admin


Joined: 06 Jul 2006
Posts: 5293

PostPosted: Mon Aug 27, 2012 2:58 pm    Post subject: Reply with quote

guest13
Т.е., если вопрос вами сформулирован верно, то, набрав сейчас текст в этом файле на русском и сохранив в UTF-8, то получим непонятные символы?

Или вы всетаки имели ввиду: "у меня были русские символы, кто-то что-то сделал, на выходе получились непонятные символы и теперь не знаю как вернуть обратно"?
Back to top
View user's profile Send private message Send e-mail
guest13



Joined: 08 Jun 2012
Posts: 9

PostPosted: Tue Aug 28, 2012 8:48 am    Post subject: Reply with quote

..

Last edited by guest13 on Wed May 28, 2014 1:22 am; edited 1 time in total
Back to top
View user's profile Send private message
Instructor
Site Admin


Joined: 06 Jul 2006
Posts: 5293

PostPosted: Tue Aug 28, 2012 9:10 am    Post subject: Reply with quote

guest13
Вы можете выложить или выслать этот файл?
Back to top
View user's profile Send private message Send e-mail
guest13



Joined: 08 Jun 2012
Posts: 9

PostPosted: Tue Aug 28, 2012 12:25 pm    Post subject: Reply with quote

..

Last edited by guest13 on Wed May 28, 2014 1:22 am; edited 1 time in total
Back to top
View user's profile Send private message
Instructor
Site Admin


Joined: 06 Jul 2006
Posts: 5293

PostPosted: Tue Aug 28, 2012 2:20 pm    Post subject: Reply with quote

guest13
Никаких сложностей с сохранением в файл не вижу. Открыл как UTF-8, набрал русский текст среди каракуль, сохранил, переоткрыл, набранный русский текст отображается нормально.
Back to top
View user's profile Send private message Send e-mail
guest13



Joined: 08 Jun 2012
Posts: 9

PostPosted: Tue Aug 28, 2012 6:49 pm    Post subject: Reply with quote

..

Last edited by guest13 on Wed May 28, 2014 1:23 am; edited 1 time in total
Back to top
View user's profile Send private message
Instructor
Site Admin


Joined: 06 Jul 2006
Posts: 5293

PostPosted: Wed Aug 29, 2012 4:15 am    Post subject: Reply with quote

guest13
Даже, если тот кто так "закодировал" впомнит последовательность перекодировок, нельзя быть уверенным, что обратное перекодирование поможет, т.к. часто выбранное направление перекодирования необратимо.
Back to top
View user's profile Send private message Send e-mail
DV



Joined: 16 Nov 2006
Posts: 829
Location: Kyiv, Ukraine

PostPosted: Mon Apr 14, 2014 7:52 pm    Post subject: Reply with quote

Информация к размышлению:
https://pypi.python.org/pypi/chardet
https://github.com/batterseapower/libcharsetdetect
Сразу подумалось, что это ж можно к AkelPad крутой плагин по распознаванию кодировок сделать Smile
Back to top
View user's profile Send private message
DV



Joined: 16 Nov 2006
Posts: 829
Location: Kyiv, Ukraine

PostPosted: Tue Apr 15, 2014 7:59 am    Post subject: Reply with quote

DV,
Однако же, практическое использование показало, что не всё так лучезарно. Сам подход, конечно, весьма и весьма интересен, однако на элементарном файле с кириллицей cp1251 этот алгоритм почему-то выдал в результате кодировку MacCyrillic - причём с каждой новой строкой перевес в сторону MacCyrillic был всё больше. И, что самое обидное, "споткнулось" определение кодировки на первых (заглавных) буквах предложений, по какой-то причине посчитав их чем-то вроде кавычек из MacCyrillic. То есть "весовые" таблицы символов всё-таки не совершенны.
Back to top
View user's profile Send private message
FeyFre



Joined: 07 Aug 2007
Posts: 2033
Location: Vinnitsa, Ukraine

PostPosted: Tue Apr 15, 2014 3:07 pm    Post subject: Reply with quote

DV, там написано что кириллица только Болгарский.
Весовые таблицы символов помогают определять язык, а не собственно кодировку. Да и работают на текстах по больше. Да и построить таблицу которая хорошо бы работала - дилетантам которые занимались указанной либой не под силу. Уж очень прикладное направление и нужно привлекать действительно специалистов.
Back to top
View user's profile Send private message AIM Address Yahoo Messenger MSN Messenger
Display posts from previous:   
Post new topic   Reply to topic    AkelPad Forum Index -> Discussion (Russian) All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


SourceForge.net Logo Powered by phpBB © 2001, 2005 phpBB Group