Я так понимаю, текст/слова из неизвестного алфавита, и соответственно неизвестно, что из символов является ограничителем/разделителем слов.
Я бы делал так:
Сразу предупреждаю, решение подходит для конкретных языков, а не абстрактного понятия текста.
Раз "с долей вероятности" то первый инструмент который напрашивается для работы это статистика. Начнем с текста:
1. Считаем частоту вхождения буковок. Показатель этот не архиважный, но может помочь. Например с определением языка текста( а значит и основного набора букв). По этой статистике мы также можем вычленить а какие же из символов могут быть разделители(их вероятнее всего меньше всех).
2. Считаем статистику пар символов, триплетов символов(4 и больше уже нету смысла, да и накладно). Сортируем. Ну а дальше эвристика. По полученной картине должны оценить "да" или "нет". На ум приходит два способа:
1. На основании базы знаний. Частота появления определенных пар, триплетов(тех что появляются чаще в аппробируемом тексте) должна коррелировать со значениями для них в базе. Если у нас есть результат из п.1 по разделителям, то статистику пар/триплетов с их участием можно не считать. Если нет, то отбрасываем только редкие.
2. Эвристически. В человеческом языке буквы используются неравномерно. Соответственно если это текст, то распределение статистики будет иметь какую-нибудь узнаваемую форму. Задача сводится к поиске более подходящей формы. Фактически этот способ близнец первого(с базой знаний), с той разницей что там мы должны таскать за собой базу, а тут мы эту базу помним аналитически, например в виде формул(с тремя интегралами обязательно
).
Преимущества/недостатки способов - отдельно обдумать надо.
По поводу слова.. Статистика явно тут пасует, ибо мало данных. Разве что выделят пары/триплеты и сверять с базой. Опять таки, если есть только одно слово, то толку нам это не даст.
Вот такие вот соображения.