БИОЛОГИЧЕСКИЙ ФОРУМ ЭЛЕКТРОННОЙ БИОЛОГИЧЕСКОЙ БИБЛИОТЕКИ ZOOMET.RU

БИОЛОГИЧЕСКИЙ ФОРУМ

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » БИОЛОГИЧЕСКИЙ ФОРУМ » ЭЛЕКТРОННАЯ ЛИТЕРАТУРА » СКАНИРОВАНИЕ КНИГ


СКАНИРОВАНИЕ КНИГ

Сообщений 1 страница 20 из 145

1

Советую сканировать книги в программе Document Express Editor 6, это самый быстрый способ создания электронных книг в djvu

http://i023.radikal.ru/0712/52/fb2846da1298.jpg

Год выпуска: 2005
Версия: 6.0.1 build 1259
Разработчик: LizardTech
Платформа: Windows
Совместимость с Vista: полная
Язык интерфейса: только английский
Описание: Document Express with DjVu - группа приложений, позволяющих создавать, управлять, записывать и распространять файлы в формате DjVu.
Одна из наиболее распространенных программ для создания и просмотра DjVu-документов на локальном компьютере. Рассмотрим коротко ее основные возможности и кратко опишем принцип создания DjVu-документов.
В Document Express Editor, можно открывать и конвертировать файлы таких форматов: DjVu (*.djvu, *.djv), BMP (*.bmp), GIF (*.gif), JPEG (*.jpeg, *.jpg), PNM (*.pnm, *.ppm, *.pgm, *.pbm), TIFF (*.tiff, *.tif), PICT (*.pict).
Для создания DjVu-файла нужно отсканировать страницу (меню “File” -> “Scan Pages”), либо открыть уже готовое изображение поддерживаемого формата (меню “File” -> “Open”). Если в документ должен быть многостраничный, то при помощи меню “Edit” > “Insert Pages(s) Before” или “Edit” > “Insert Pages(s) After” вставить в документ до или после открытого изображения остальные изображения.
Затем при помощи меню “File” -> “Save As” сохранить документ в формате DjVu.
При сохранении файла программа предложит выбрать настройки: распознавать ли текст; профиль; разрешение (от 100 до 600 dpi); качество текста (возможны 5 уровней от «агрессивного», т.е. со значительной потерей до «без потери»), сохранять изображения каждое в отдельном или все в одном файле.
Так называемый профиль – это тоже настройки, только пользователь выбирает тип документа, а программа автоматически подстраивается под тип изображения.
Всего доступны 7 профилей:
1. «Нормальный» – для большинства отсканированных печатных документов
2. «Электронный» – для растровых изображений электронного происхождения, таких, как скриншоты и т.п.
3. «Фото» - для фотографий. При этом функция OCR не работает, поэтому функция поиска и копирования текста в созданном документе не будет работать.
4. «Битональный» - для черно-белых изображений
5. «Рукопись» - для старых или рукописных изданий без рисунков или фотографий
6. «Рисунок» - похож на «Рукопись», но с поддержкой рисунков и фотографий
7. «Карта» - похож на «Рисунок», но с лучшей поддержкой перевернутого текста
Этими настройками, как правило, действительно можно добиться удовлетворительного результата. После того, как настройки заданы, нужно выбрать место на локальном диске и сохранить файл в формате DjVu.
После сохранения добавляется возможность подсвечивать области в документе, вставлять внутренние (для самого документа) и внешние гиперссылки и т.п. Так же если при создании DjVu-документа не было задано распознавание текста, это можно сделать позже. Document Express Editor 6.0.1 умеет распознавать около 100 языков, в том числе русский и украинский.
Вообще вопрос о необходимости добавления текстового OCR-слоя при создании DjVu-документа является дискуссионным. Помимо того, что процедура распознавания текста занимает значительное время, OCR-слой увеличивает размер DjVu-файла. Однако наличие текстового слоя очень удобно при дальнейшей работе с электронной книгой. Во-первых, появляется возможность копировать нужные фрагменты текста для последующей обработки; во-вторых – искать по ключевому слову или выражению в самом DjVu-документе и среди всего множества DjVu-документов как на локальных дисках, так и в сети. Функция поиска по ключевому слову присутствует практически во всех DjVu-программах.

Скачать программу (54 Mb) - http://depositfiles.com/ru/files/2802798

Потренироваться в создании djvu можно на любой картинке или фотографии.

2

То есть используя эту прогу можно и сканировать в DJVU и просто сканировать?
Я до конца не разобрался ещё с этим процессом. Пока предпочитал цв илл сканировать утилитой к сканеру, а ч/б и серые FineRiderom (слышал, что последний способ имеет существенные недостатки).
И храню как FR-пакеты (на случай, если захочется что-нить распознать) и сканы (так мне удобнее книжки просматривать)...
Но меня очень напрягают разноцветные страницы. Нет ли технологии, чтобы сканируя страницу, для цв фото и илл - задавать один профиль, а для ч/б текстов - другой. Может нужно использовать спец сканеры? :unsure:

3

Используя эту прогу можно сканировать только сразу в djvu.
Если вам захочется распознать книгу в формате djvu, то просто суете ее в FineReader 9 и распознаете.
Если вы имеете ввиду что на одной странице встречается и цветной рисунок и текст, то тут наука бессильна на одной странице сделать разные настройки невозможно. Хотя можно распознав в FineReader и потом сделав pdf

4

Zoometod написал(а):

Если вы имеете ввиду что на одной странице встречается и цветной рисунок и текст, то тут наука бессильна на одной странице сделать разные настройки невозможно

Да именно это я имел в виду... А почему невозможно?
Ну, допустим разрешение одно и тоже, но цветность разная... В чём сложность то непреодолимая? :unsure:

PS: Да ещё! Ведь сканы, как правило, желательно почистить перед тем как конвертировать в книжку...
Этот вопрос как решается этой прогой?

Отредактировано xguar (2009-05-28 19:50:48)

5

xguar написал(а):

Да именно это я имел в виду... А почему невозможно?
Ну, допустим разрешение одно и тоже, но цветность разная... В чём сложность то непреодолимая?

Технически не придусмотрено у сканеров, если вы делите страницу на зоны то они сканируются как разные рисунки.
Я лично про сканеры с возможностью деления на зоны и сканирование как единое целое не слышал

6

Zoometod

Так может быть есть утилитки какие на этой случай?

7

xguar написал(а):

Так может быть есть утилитки какие на этой случай?

Не встречал, если я сканирую и встречается цветной рисунок и текст то я все в цвете сканирую, если ч/б фото то в сером,
если ч/б рисунок то в ч/б режиме.

8

Zoometod написал(а):

если я сканирую и встречается цветной рисунок и текст то я все в цвете сканирую, если ч/б фото то в сером,
если ч/б рисунок то в ч/б режиме

я тоже... но представьте Амоса (Живой мир остравов) - там почти нет ч/б страниц. Страшно даже начинать такую вещь сканить... :'(

9

xguar написал(а):

я тоже... но представьте Амоса (Живой мир остравов) - там почти нет ч/б страниц. Страшно даже начинать такую вещь сканить...

Для этого и существуют проги djvu чтоб сразу компактный размер был, и сразу в книжку оформленный, а так у вас книжка будет много много Gb весить
у вас как на жестком диске много еще места?

10

Zoometod
Понял! Записал! Записал, что записал...
У меня на диске ооочень мало места, поэтому у меня ооочень много жёстких дисков... внешних (терабайта на 3) :D

11

Zoometod написал(а):

Используя эту прогу можно сканировать только сразу в djvu.
Если вам захочется распознать книгу в формате djvu, то просто суете ее в FineReader 9 и распознаете.
Если вы имеете ввиду что на одной странице встречается и цветной рисунок и текст, то тут наука бессильна на одной странице сделать разные настройки невозможно. Хотя можно распознав в FineReader и потом сделав pdf

Да нет, не бессильна. Надо просто несколько усложнить технологическую цепочку. Вот так:
===
сканирование любой программой в 300 dpi grayscale/color -> обработка сканов в Scan Kromsator или Scan Tailor (обе программы _умеют_ отделять черно-белый контент от серого или цветного)* -> кодирование в DjVu** -> формирование текстовой подложки в программе DjVu OCR***
===
* Scan Kromsator позволяет выделять зоны изображений вручную, а также сохранять картинки и текст раздельно для последующего раздельного кодирования в DjVu; Scan Tailor делает первое автоматически, а второе пока не умеет.
** Кодирование может быть массовое, когда используется один профиль на все страницы, по группам, когда профилей несколько, а потом страницы сшиваются в один файл, и раздельное, когда задний и передний слой DjVu кодируются раздельно (это позволяет экономить размер и при этом сохранять качество в случае цветных иллюстраций)
*** Получившийся файл DjVu имеет текстовый слой. Текст можно выделять мышкой, искать в нем нужные слова, копировать в буфер обмена и пр.

12

m7876 написал(а):

... сканирование любой программой в 300 dpi grayscale/color ....

1. только 300 или это для примера...

2. всё-таки сложноватый процесс.. но уже что-то более менее адекватное, а может есть ещё более продвинутая и "чайная" технология?

13

Вот инструкция: http://djvu-soft.narod.ru/scan/scan_and_share_1_07.htm
Лично знаю несколько человек (и я в том числе), которые эту инструкцию освоили, что называется, с нуля.

14

xguar написал(а):

1. только 300 или это для примера...
2. всё-таки сложноватый процесс.. но уже что-то более менее адекватное, а может есть ещё более продвинутая и "чайная" технология?

300 это самое то, меньше не советую, больше не имеет смысла.

Я опишу как я сканирую книги:
Открываем программу Document Express Editor 6, подключаем сканер и все такое.
нажимаем кнопочку Scan Pages (сканер нарисован) сканируем и сохраняем как (Save as..) djvu дав скану название.
При сохранениии выбираем параметры Profile - Bitonal, DPI - 300, Text Guality - lossless, Multi page setting - bundle
и усё книга готова

15

А мне хотелось бы, чтобы напечатанные сканы практически не отличались от оригинала... (и ч/б и цветные); и для мелкого текста на некоторых страницах лучше, как я слышал, - 400, а для карт географических, вроде 600... Думаю 400 gray буду сканировать для ч/б и серых и 600 - для цветных...
Что делать, такой уж я эстет и педант. Хочу, чтобы чистенькие и ровненькие были сканы... и книжки.
Я наверно всё таки усложню технологию по приведённой инструкции, чтобы книжки - как конфетки были... :glasses:

16

Если вы будете делать страницы одной книги в разных разрешениях то одни будут больше, другие меньше когда книгу листаешь. Так что выберите одно разрешение, 600 например для всех страниц.

17

Zoometod
Да для одной книги - так собираюсь делать.

18

m7876 написал(а):

...Надо просто несколько усложнить технологическую цепочку....

Использовал предложенную инструкцию... Правда сканировал не книгу, а ксерокопию...
Почему-то страницы получились неодинаковыми, хотя сканировал с одним разрешением
Правда страницы с вставленными рисунками (тренировался! 8-) ) редактировал повторно, с первого раза не вышло...
И текст после обработке получился не всегда читаемый, хотя на серых сканах он различим...
Если можете посоветовать что-либо для улучшения качества, буду очень признателен. :shine:
Вот 2 варианта
Вариант 1: Сканы 600 dpi ч/б + серые рис. (из 400 dpi серый) после обработки ScanKromsator-ом с использованием предложенных в инструкции настроек - 30,2 мб (30,7 мб - в архиве с 5% инф для восст): http://webfile.ru/3727733
Вариант 2: DJVU 600 dpi - 4,99 мб (5,24 мб - в архиве с 5% инф для восст): http://webfile.ru/3727740
DJVU создавал в Document Express Editor (возможно нужно было это делать в ScanKromsator-е, результат меня не устроил)

Отредактировано xguar (2009-06-24 20:33:55)

19

Интересно какой у кого сканер
У меня Benq 5000U - медленный но благодаря прилагаемой к нему програмке MiraScan6 очень удобный

20

hp scanjet 2380


Вы здесь » БИОЛОГИЧЕСКИЙ ФОРУМ » ЭЛЕКТРОННАЯ ЛИТЕРАТУРА » СКАНИРОВАНИЕ КНИГ