Исходное сообщение akry
FR10 лучше распознаёт. Жаль, что пока нет софта для него. Вообще он распознаёт DjVu самостоятельно, как набор сканов — может быть это можно присобачить к выводу?
Я могу и ошибаться, но
gencho (автор DjvuOCR) кажется занимается этим вопросом, просто сейчас он больше занят доводкой до ума совместимости с FR9. Вероятно после этого займется FR10, во всяком случае было бы странно если бы он обошел FR10 стороной.
А пока все рекомендуют связку DjvuOCR+FR8, с 9 все еще бывают ошибки.
Нюансы и технические вопросы, а также вопросы разработки DjvuOCR и дружбы его с FR активно обсуждаются здесь -
http://ns2.ru-board.com/topic.cgi?forum=5&topic=22673&start=180
Там же есть варианты использования FR10 для DjVu, но пока все это очень коряво.
Исходное сообщение akry
Это означает, что документ на каком-то уровне, прямо сейчас пригоден к чтению и распечатке. Но он ещё не «окончательная вёрстка», потому что в нём могут быть ошибки, текст не отделён от картинок, формулы не векторизированы.
А зачем все это? Имеется ввиду идеальная вычитка и векторизация?
Вот смотрите у меня есть бумажная книга, и мне не приходит в голову жаловаться, что с ней не удобно работать: пальцами листать страницы, вручную конспектировать или ксерокопировать избранные параграфы и вообще, а почему нельзя формулы сразу из книжки перенести в word... Эх, бумажная книжка уныла и гавена и зачем их еще издают?
Ладно не буду утрировать, все это юмор.
Допустим у моего друга нету какой-либо книжки, но ему она очень нужна. Я перегоняю её в djvu и он может читать её и использовать почти точно также как я, только вся разница в том, что с монитора + у него еще есть поиск по тексту (мне же придется пользоваться предметно-именным указателем и то если он есть в книге) и возможность копировать в word, помойму неплохо ;)
А при желании он может распечатать djvu-книгу на принтере и получит визуально такую же книгу как у меня (только бумага и переплет может отличаться) и поставит на полку и отсутствие векторизации и вычитки тут совершенно никак не скажется на качестве. Обе книги будут точка в точку, запятую в запятую идентичны. Все таки 300-600 dpi это весьма, тем более для ч\б текста.
Если я собираюсь распечатать книжку в бумаге, какая принципиальная разница источник у меня в растре или в векторе? Разве что размер в мегабайтах. Но DjVu сжимает растр довольно сильно, сильнее чем его может сжать PDF.
Если брать в сравнение растр DjVu и вектор PDF, разница да существенна "djvu_example.pdf (325 kb vs 823 kb)" в 2,5 раза. Но эта разница существенна только если я собираюсь хранить у себя на винте большую библиотеку от единиц гигабайт и более.
Теперь взглянем на этот вопрос с другой стороны. Мне нужна книга, что то наподобие "Механики сплошных сред" (обилие формул, спец. значков, диаграмм, графиков и т.п.), у меня её нет, но она есть у некоего N (и живет от далеко от меня).
И вот я пишу ему на email с просьбой прислать мне эл.копию этой книги. Что для N окажется проще перевести её в DjVu или в PDF, очевидно в DjVu.
Вот скажите мне, Вы бы бесплатно стали бы делать полную вычитку и полную векторизацию "Механики сплошных сред". И даже если предположить что кто то "из любви к искусству" и начнет, сколько я буду ждать эту книгу? Неделю, месяц... А она мне нужна уже завтра.
К тому же человек не идеален, он делает ошибки, где гарантия, что он не ошибется при вычитке и векторизации, причем не один раз на какой нибудь из 335 стр. той же механики, а есть книги и в 800 стр. Так это еще нужен целый коллектив, который будет проверять на ошибки и все равно ошибки не исключены.
Трудозатраты и затраты времени имхо не оправдано высоки.
DjVu тут все крайне значительно упрощает.
Исходное сообщение akry
не «окончательная вёрстка», потому что в нём могут быть ошибки, текст не отделён от картинок, формулы не векторизированы.
Ошибки могут быть
только в текстовом слое, в самом отображении книги в DjVu формате,
ошибок нет. Так как DjVu по отображению ничем визуально не отличается от качественной фотографии той же самой книги. А в некотором смысле даже превосходит фотографию.
И текст и картинки и фон книги все в растре. Текстовый слой храниться в отдельном чанке в виде txt текста сжатого ZP алгоритмом (подобен алгоритму BZIP2).
Исходное сообщение akry
к тому же DjVu не пригоден для сохранения такой сложной вёрстки.
Не совсем понятно почему? Чем цифровая фотографическая копия не подходит для сохранения всех деталей и нюансов бумажного оригинала сколь угодно сложной верстки? При желании можно сохранить даже пятна и грязь присутствующие на бумаге от старости.
Исходное сообщение akry
Фактически, в нём есть только два вида информации — растр и почти голый текст (или можно сохранять вектора?).
На сколько я понимаю только растр + опционально текст подобный txt-формату.
Насчет вектора врать не буду, не знаю. Это лучше спросить, не побоюсь сказать, у корифеев формата DjVu на посоветском пространстве, например
monday2000 на форуме -
http://www.djvu-scan.ru/forum/
Или попробовать поискать ответ самому на его сайте -
http://www.djvu-soft.narod.ru/
Про технические аспекты формата можно почитать также
здесь, но возможно информация уже устарела, формат не стоит на месте и потихоньку развивается.
Исходное сообщение akry
Таким образом, формат — паллиатив. Можно сказать, хак, в хорошем смысле.
Ну не знаю, это скорее дело личных предпочтений.
Исходное сообщение akry
Вопросы бесплатного SDK, жадности Caminova и стандартизации по ISO мы оставим в стороне.
Пожалуй лучше да, данными вопросами я не интересовался, так что тут я ничего определенного сказать пожалуй не могу.
Ну разве что слышал, что существует открытая библиотека
DjVuLibre, публикуемая вроде под лицензией GNU GPL.
Про SDK и ISO лучше опять же спросить у
monday2000.
Вообще достойных бесплатных программ для DjVu достаточно.