se7h wrote:opk44
Для проверки правописания существует плагин (или скрипт) SpellCheck
Мне о том ведомо. Но проверка правописания это куда как более кропотливая работа, чем простая визуализация ошибок в тексте. Визуализация эффективнее если в руки попадает текст, где слова содержат некоторый процент "похожих" символов иного алфавита (следствие некачественного OCR или по иным причинам). Тогда, например, латинские буквы "o" в слове "пoскoльку" будут с включенной подсветкой гореть как кошачьи глаза ночью (скопируйте следующий текст ("пoскoльку", "поскoлькy", "пoсколькy", "пocкольку", "поcкoльку", "поcколькy") в редактор и убедитесь). А проверка правописания на этом же примере выдаст пользователю лишь сообщение об "отсутствии слова в словаре". Как говорится "почувствуйте разницу".
Можете возразить, что приведенный пример составлен для латинских и кириллических символов, а для кириллических и кириллических такого, как Вы полагаете "не бывает".
Бывает! Например символы ҖҚ (<0496><049A>) являются "кириллическим" лишь в самом общем смысле, но не входят ни в белорусский ни в украинский ни в русский национальные алфавиты (а вот окажись здесь черкес или уйгур, то опять речь зайдет о "необходимости включения").
При этом визуально (без различия в подсветке), варианты написания "ҖЭҚ" и "ЖЭК" (<0496><042D><049A> и <0416><042D><041A>) в большом куске текста мало отличимы.
Но если для "чтения глазами" это и не большая проблема, то при отправке текста с такими символами какому-нибудь речевому движку, или при записи в базу данных для последующей обработки, при индексировании и т.д. и т.п. это может привести к непредсказуемым последствиям.
se7h wrote:ИМО вся кириллица должна быть одного цвета, а латиница - другого
Не хотите со мной соглашаться – Ваше право, но прежде прошу открыть Википедию на странице "Кириллица" (
http://ru.wikipedia.org/wiki/Кириллица), где сказано буквально следующее: "(говорят о русской, сербской и т. п. кириллицах; называть же «кириллическим алфавитом» формальное объединение нескольких или всех национальных кириллиц некорректно)".
Поэтому признайте, что и в моей точке зрения какой-то смысл есть, а не просто "желание добиться своего".
Единственные, кому действительно может быть полезным смешение всех кириллиц, это упомянутые FeyFre "немцы и прочие европейцы, пишущие на латинице". С их точки зрения, наверное, совершенно индифферентно чья будет кириллица – украинская, русская, белорусская, македонская. Для них это "шум", который должен отличаться от латиницы и только. Я же не немец. Мне не все равно.
se7h wrote:до кучи ещё буквы белорусского алфавита: І <0406> і <0456> Ў <040E> ў <045E>
Вот Вы хотите при письме по-белорусски или по-украински, чтобы, буква "і" в словах не выпячивалась, как в этом примере ( ПОДАРУНОК НА ІМЕНИНИ Карпо Петрович Зайчик, околодочний надзиратель, вернувся нарешті з служби додому. Фу-ти! Ну-ти!.. Він був голоден і злий. ... ). Для украинского и белорусского – это правильно, а для русского – нет. Для белорусского скорее всего ошибкой будет наличие в тесте незамеченных украинских букв "Ї", а для украинского – "Ў", а для русского – наличие обеих букв ошибка. Для украинского было бы полезно выделять цветом разницу между своей "Ґ" и македонской "Ѓ", а для русского и белорусского и та и другая в равной степени "нехороши".
Эти "мелкие отличия" я и предлагаю учитывать в отдельных "национальных" coder-файлах (txt-rus.coder, txt-bel.coder, txt-ua.coder, ... ), а не включать все в "общий".
se7h wrote:добавлено:
и ещё в белорусском апостроф ’ <2019> вместо твёрдого знака
Приведенный Вами же пример с белорусским апострофом (<2019> вместо твердого знака в русском) хорош в том смысле, что с точки зрения "белорусской кириллицы" – это буква кириллицы, а с точки зрения "русской и украинской кириллиц" – это знак пунктуации (right single quotation mark). Я считаю, что здесь Вы как раз "льёте воду на мою мельницу".
Еще есть что обсуждать в плане статистики (например адаптацию скрипта Infocatcher "textStatistics.js" для белорусского и украинского).