| View previous topic :: View next topic |
| Author |
Message |
ker
Joined: 29 Mar 2012 Posts: 4
|
Posted: Thu Jun 21, 2012 1:03 pm Post subject: распознавание кодировки |
|
|
| У меня такой вопрос возник, а можно ли распознавание кодировки сделать более универсальным, например кириллицу и европейскую в одно объединить? Сильно ли точность пострадает? |
|
| Back to top |
|
 |
Instructor Site Admin
Joined: 06 Jul 2006 Posts: 4646
|
Posted: Sat Jun 23, 2012 4:32 am Post subject: |
|
|
ker
Распознавание кодировки как раз основано на разделении языков, их объединение идет вразрез с самим принципом распознавания. |
|
| Back to top |
|
 |
ker
Joined: 29 Mar 2012 Posts: 4
|
Posted: Sun Jun 24, 2012 5:07 am Post subject: |
|
|
вот как.. спасибо за разъяснение, у меня просто стоит еще просмотрщик veiw64, я им как то открыл текст один, смотрю а он там кодировку определил как 1252 western, и это помогло понять почему иногда в некоторых файлах корякозябры возникают. Что то видать у него там хитрое написано тогда  |
|
| Back to top |
|
 |
guest13
Joined: 08 Jun 2012 Posts: 9
|
Posted: Mon Aug 27, 2012 10:13 am Post subject: |
|
|
ПОМОГИТЕ МНЕ ПОЖАЛУЙСТА.
Короче, не знаю в чём дело. Есть у меня проблемный текстовый файл в кодировке utf-8. При сохранении в нём русских символов они превращаются в непонятно какие символы, непонятно какой кодировки. Перебрал все кодировки - НИ В ОДНОЙ не распознаётся!!!
Что за ерунда, как восстановить текст, онлайн декодеры тоже не распознают.
В utf-8 это выглядит так: Search - 㼭沲桢 ﳤ欼 뮮𐫳
В win-1251: Search - гјжІІжЎў пі¤ж¬јоґѕ л®®рђ«і
После открытия файла он распознаётся по умолчанию в кодировке win-866 и выдаёт: Search - у╝нц▓▓цбв я│дцм╝ю┤╛ ыооЁРл│ |
|
| Back to top |
|
 |
Instructor Site Admin
Joined: 06 Jul 2006 Posts: 4646
|
Posted: Mon Aug 27, 2012 2:58 pm Post subject: |
|
|
guest13
Т.е., если вопрос вами сформулирован верно, то, набрав сейчас текст в этом файле на русском и сохранив в UTF-8, то получим непонятные символы?
Или вы всетаки имели ввиду: "у меня были русские символы, кто-то что-то сделал, на выходе получились непонятные символы и теперь не знаю как вернуть обратно"? |
|
| Back to top |
|
 |
guest13
Joined: 08 Jun 2012 Posts: 9
|
Posted: Tue Aug 28, 2012 8:48 am Post subject: |
|
|
Вы меня совершенно верно поняли! После сохранения русского текста в этом файле ну и соответственно после последующего его открытия, текст портится.
Ну когда-то давно с этим текстовым файлом было всё в порядке, а потом непонятно что случилось)
На данный момент при открытии файла кодировка utf-8, все русские символы в виде иероглифов: ᣠ㡿/뱥婲 鲲歠 ﰫ
При изменении на win 1251 иероглифы превращаются в: бЈ оІ®гЎї/뱥婲 йІІж п°«бі»
И так далее...  |
|
| Back to top |
|
 |
Instructor Site Admin
Joined: 06 Jul 2006 Posts: 4646
|
Posted: Tue Aug 28, 2012 9:10 am Post subject: |
|
|
guest13
Вы можете выложить или выслать этот файл? |
|
| Back to top |
|
 |
guest13
Joined: 08 Jun 2012 Posts: 9
|
Posted: Tue Aug 28, 2012 12:25 pm Post subject: |
|
|
| Да, пожалуйста, выслал Вам на e-mail проблемный файл |
|
| Back to top |
|
 |
Instructor Site Admin
Joined: 06 Jul 2006 Posts: 4646
|
Posted: Tue Aug 28, 2012 2:20 pm Post subject: |
|
|
guest13
Никаких сложностей с сохранением в файл не вижу. Открыл как UTF-8, набрал русский текст среди каракуль, сохранил, переоткрыл, набранный русский текст отображается нормально. |
|
| Back to top |
|
 |
guest13
Joined: 08 Jun 2012 Posts: 9
|
Posted: Tue Aug 28, 2012 6:49 pm Post subject: |
|
|
Ну а эти каракули как восстановить? Мне нужен этот текст русскими символами  |
|
| Back to top |
|
 |
Instructor Site Admin
Joined: 06 Jul 2006 Posts: 4646
|
Posted: Wed Aug 29, 2012 4:15 am Post subject: |
|
|
guest13
Даже, если тот кто так "закодировал" впомнит последовательность перекодировок, нельзя быть уверенным, что обратное перекодирование поможет, т.к. часто выбранное направление перекодирования необратимо. |
|
| Back to top |
|
 |
|