AkelPad Forum Index AkelPad
Support forum
 
 FAQFAQ   SearchSearch   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

распознавание кодировки

 
Post new topic   Reply to topic    AkelPad Forum Index -> Discussion (Russian)
View previous topic :: View next topic  
Author Message
ker



Joined: 29 Mar 2012
Posts: 4

PostPosted: Thu Jun 21, 2012 1:03 pm    Post subject: распознавание кодировки Reply with quote

У меня такой вопрос возник, а можно ли распознавание кодировки сделать более универсальным, например кириллицу и европейскую в одно объединить? Сильно ли точность пострадает?
Back to top
View user's profile Send private message
Instructor
Site Admin


Joined: 06 Jul 2006
Posts: 5174

PostPosted: Sat Jun 23, 2012 4:32 am    Post subject: Reply with quote

ker
Распознавание кодировки как раз основано на разделении языков, их объединение идет вразрез с самим принципом распознавания.
Back to top
View user's profile Send private message Send e-mail
ker



Joined: 29 Mar 2012
Posts: 4

PostPosted: Sun Jun 24, 2012 5:07 am    Post subject: Reply with quote

вот как.. спасибо за разъяснение, у меня просто стоит еще просмотрщик veiw64, я им как то открыл текст один, смотрю а он там кодировку определил как 1252 western, и это помогло понять почему иногда в некоторых файлах корякозябры возникают. Что то видать у него там хитрое написано тогда Smile
Back to top
View user's profile Send private message
guest13



Joined: 08 Jun 2012
Posts: 9

PostPosted: Mon Aug 27, 2012 10:13 am    Post subject: Reply with quote

ПОМОГИТЕ МНЕ ПОЖАЛУЙСТА.
Короче, не знаю в чём дело. Есть у меня проблемный текстовый файл в кодировке utf-8. При сохранении в нём русских символов они превращаются в непонятно какие символы, непонятно какой кодировки. Перебрал все кодировки - НИ В ОДНОЙ не распознаётся!!!
Что за ерунда, как восстановить текст, онлайн декодеры тоже не распознают.
В utf-8 это выглядит так: Search - 㼭沲桢 ﳤ欼 뮮𐫳
В win-1251: Search - гј­жІІжЎў пі¤ж¬јоґѕ л®®рђ«і
После открытия файла он распознаётся по умолчанию в кодировке win-866 и выдаёт: Search - у╝нц▓▓цбв я│дцм╝ю┤╛ ыооЁРл│
Back to top
View user's profile Send private message
Instructor
Site Admin


Joined: 06 Jul 2006
Posts: 5174

PostPosted: Mon Aug 27, 2012 2:58 pm    Post subject: Reply with quote

guest13
Т.е., если вопрос вами сформулирован верно, то, набрав сейчас текст в этом файле на русском и сохранив в UTF-8, то получим непонятные символы?

Или вы всетаки имели ввиду: "у меня были русские символы, кто-то что-то сделал, на выходе получились непонятные символы и теперь не знаю как вернуть обратно"?
Back to top
View user's profile Send private message Send e-mail
guest13



Joined: 08 Jun 2012
Posts: 9

PostPosted: Tue Aug 28, 2012 8:48 am    Post subject: Reply with quote

Вы меня совершенно верно поняли! После сохранения русского текста в этом файле ну и соответственно после последующего его открытия, текст портится.
Ну когда-то давно с этим текстовым файлом было всё в порядке, а потом непонятно что случилось)
На данный момент при открытии файла кодировка utf-8, все русские символы в виде иероглифов: ᣠ㡿/뱥婲 鲲歠 ﰫ᳻
При изменении на win 1251 иероглифы превращаются в: бЈ оІ®гЎї/뱥婲 йІІж­  п°«бі»
И так далее... Sad
Back to top
View user's profile Send private message
Instructor
Site Admin


Joined: 06 Jul 2006
Posts: 5174

PostPosted: Tue Aug 28, 2012 9:10 am    Post subject: Reply with quote

guest13
Вы можете выложить или выслать этот файл?
Back to top
View user's profile Send private message Send e-mail
guest13



Joined: 08 Jun 2012
Posts: 9

PostPosted: Tue Aug 28, 2012 12:25 pm    Post subject: Reply with quote

Да, пожалуйста, выслал Вам на e-mail проблемный файл
Back to top
View user's profile Send private message
Instructor
Site Admin


Joined: 06 Jul 2006
Posts: 5174

PostPosted: Tue Aug 28, 2012 2:20 pm    Post subject: Reply with quote

guest13
Никаких сложностей с сохранением в файл не вижу. Открыл как UTF-8, набрал русский текст среди каракуль, сохранил, переоткрыл, набранный русский текст отображается нормально.
Back to top
View user's profile Send private message Send e-mail
guest13



Joined: 08 Jun 2012
Posts: 9

PostPosted: Tue Aug 28, 2012 6:49 pm    Post subject: Reply with quote

Ну а эти каракули как восстановить? Мне нужен этот текст русскими символами Sad
Back to top
View user's profile Send private message
Instructor
Site Admin


Joined: 06 Jul 2006
Posts: 5174

PostPosted: Wed Aug 29, 2012 4:15 am    Post subject: Reply with quote

guest13
Даже, если тот кто так "закодировал" впомнит последовательность перекодировок, нельзя быть уверенным, что обратное перекодирование поможет, т.к. часто выбранное направление перекодирования необратимо.
Back to top
View user's profile Send private message Send e-mail
DV



Joined: 16 Nov 2006
Posts: 808
Location: Kyiv, Ukraine

PostPosted: Mon Apr 14, 2014 7:52 pm    Post subject: Reply with quote

Информация к размышлению:
https://pypi.python.org/pypi/chardet
https://github.com/batterseapower/libcharsetdetect
Сразу подумалось, что это ж можно к AkelPad крутой плагин по распознаванию кодировок сделать Smile
Back to top
View user's profile Send private message
DV



Joined: 16 Nov 2006
Posts: 808
Location: Kyiv, Ukraine

PostPosted: Tue Apr 15, 2014 7:59 am    Post subject: Reply with quote

DV,
Однако же, практическое использование показало, что не всё так лучезарно. Сам подход, конечно, весьма и весьма интересен, однако на элементарном файле с кириллицей cp1251 этот алгоритм почему-то выдал в результате кодировку MacCyrillic - причём с каждой новой строкой перевес в сторону MacCyrillic был всё больше. И, что самое обидное, "споткнулось" определение кодировки на первых (заглавных) буквах предложений, по какой-то причине посчитав их чем-то вроде кавычек из MacCyrillic. То есть "весовые" таблицы символов всё-таки не совершенны.
Back to top
View user's profile Send private message
FeyFre



Joined: 07 Aug 2007
Posts: 2008
Location: Vinnitsa, Ukraine

PostPosted: Tue Apr 15, 2014 3:07 pm    Post subject: Reply with quote

DV, там написано что кириллица только Болгарский.
Весовые таблицы символов помогают определять язык, а не собственно кодировку. Да и работают на текстах по больше. Да и построить таблицу которая хорошо бы работала - дилетантам которые занимались указанной либой не под силу. Уж очень прикладное направление и нужно привлекать действительно специалистов.
Back to top
View user's profile Send private message AIM Address Yahoo Messenger MSN Messenger
Display posts from previous:   
Post new topic   Reply to topic    AkelPad Forum Index -> Discussion (Russian) All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


SourceForge.net Logo Powered by phpBB © 2001, 2005 phpBB Group