Уважаемые коллеги:
1. Кто встречал и подскажет вменяемый, в смысле корректный (особенно по отображению абзацев), конвертор "пдф" в "текст"?
2. Можете ли поделиться впечатлением от редактора "Word Perfect", а то не доходят руки опробовать?
Текстовые редакторы и судьбы Вселенной :)
- Author
- Message
-
Offline
- Posts: 47
- Joined: Wed Aug 17, 2011 7:12 pm
- Contact:
-
Offline
- Posts: 3217
- Joined: Wed Nov 29, 2006 1:19 pm
- Location: Киев, Русь
- Contact:
PDF PDF'у рознь... они бывают:
1. Отображается текст из текстовой "подложки".
По поводу таких pdf FeyFre писал здесь. Но это только 1 пункт из всеобщего многообразия, и то здесь не всё так однозначно..
2. Отображается текст из полей.
Из таких файлов можно экспортировать текст максимально корректно, но процентное соотношение таких файлов очень невелико.
3. Отображается общая картинка;
Сначала файл надо прогнать через программу распознавания (OCR), - получить чепуху, а потом уже думать, что с ней делать ))
Когда отображаются картинки, то текстовой "подложки" может и не быть, она может быть зашифрована и т.д. и т.п.
4. Отображается картинка каждой буквы.
Распознать такой кавардак вряд ли удастся... Для этого нужна прога, которая сначала бы склеила изображения всех букв (я, честно, такой не знаю), а затем прогонять через OCR.
Поэтому вопрос по абсолютно "корректному конвертеру "пдф" в "текст" ставить некорректно
1. Отображается текст из текстовой "подложки".
По поводу таких pdf FeyFre писал здесь. Но это только 1 пункт из всеобщего многообразия, и то здесь не всё так однозначно..
2. Отображается текст из полей.
Из таких файлов можно экспортировать текст максимально корректно, но процентное соотношение таких файлов очень невелико.
3. Отображается общая картинка;
Сначала файл надо прогнать через программу распознавания (OCR), - получить чепуху, а потом уже думать, что с ней делать ))
Когда отображаются картинки, то текстовой "подложки" может и не быть, она может быть зашифрована и т.д. и т.п.
4. Отображается картинка каждой буквы.
Распознать такой кавардак вряд ли удастся... Для этого нужна прога, которая сначала бы склеила изображения всех букв (я, честно, такой не знаю), а затем прогонять через OCR.
Поэтому вопрос по абсолютно "корректному конвертеру "пдф" в "текст" ставить некорректно
-
Offline
- Posts: 47
- Joined: Wed Aug 17, 2011 7:12 pm
- Contact:
-
Offline
- Posts: 47
- Joined: Wed Aug 17, 2011 7:12 pm
- Contact:
-
Offline
- Posts: 2247
- Joined: Tue Aug 07, 2007 2:03 pm
- Location: Vinnitsa, Ukraine
Потому что "Чукча не читатель, чукча писатель", и Вы наверное тоже.
-
Offline
- Posts: 47
- Joined: Wed Aug 17, 2011 7:12 pm
- Contact:
FeyFre
Ну, есть читатели, которые больше конспектируют, чем читают :) Да и все мы, по-сути, "чукчи", все мы хорошИ. Об этом сочно сказано в одном малоизвестном афоризме: "На свете вряд ли сыщется человек, которого не стоило бы раз пять-шесть подряд повесить".
Кто-то мне здесь как-то объяснял, что в "трагедии запятой" программисты непричем. Но вот в Вики-ру циркулирует другое мнение: "И этот кто-то, будучи, видимо, программистом, совершил не просто идиотский поступок, а преступление: он поместил запятую в верхний регистр".
Ну, есть читатели, которые больше конспектируют, чем читают :) Да и все мы, по-сути, "чукчи", все мы хорошИ. Об этом сочно сказано в одном малоизвестном афоризме: "На свете вряд ли сыщется человек, которого не стоило бы раз пять-шесть подряд повесить".
Кто-то мне здесь как-то объяснял, что в "трагедии запятой" программисты непричем. Но вот в Вики-ру циркулирует другое мнение: "И этот кто-то, будучи, видимо, программистом, совершил не просто идиотский поступок, а преступление: он поместил запятую в верхний регистр".