Итак, есть готовые сканы.
(
дополнено 2007.01.07)
Формат сканов - TIFF G4. Внесены значительные изменения - 2007.10.29 Это могут быть сканы одной страницы или же разворота из двух страниц; они могут быть ориентированы правильно или же повернуты на 90 градусов.
Если сканы будут использоваться для распознавания, то простейшие операции по их повороту (и автоматически - выравниванию и очистке от мусора) будут выполнены в OCR-софте.
Если же требуется сделать сканы доступными, не тратя время на их распознавание, то требуется предварительная обработка сканов для их дальнейшего экспорта в какой-либо широко распространенный и удобный формат (pdf или djvu). Это не так принципиально, в какой именно. На данном этапе задача обработки графических фалов (сканов) может быть сведена к следующим операциям:
- Обрезать черные края
- Выровнять сканированный текст параллельно верхней кромке листа
- Очистить сканы от "мусора"
- Сделать листы одинаковыми, эстетически приемлемыми для восприятия при чтении (выровнять поля, прменить сглаживание).
В рунете существует множество в большей или меньшей степени подробных технологий предварительной обработки сканов.
Технологии разной степени сложности, основываются на разном софте.
Перед тем, как привести описание еще одной технологии, я хотел бы изложить свою точку зрения на созадние технологий вообще.
Можно сделать максимально эффективную технологию, использовав максимально эффективный софт. Но она будет очень сложна для освоения, софт будет сложным с точки зрения дружественности пользовательского интерфейса и при этом размеры софта будут иногда неприятно удивлять. Можно не делать никакой технологии, пользоваться тем, что знакомо. Тогда к делу можно приступать буквально сразу - но процесс будет низкоэффективным при обработке уже хотя бы нескольких книг.
Я не могу сказать, что ниже приведенная технология максимально проста. Не могу также сказать, что она максимально эффективна. Я искал некий компромисс, "золотую середину", оцененную по своему разумению. Пытался создать технологию, простую для освоения и вместе с тем достаточно эффективную с точки зрения потраченного времени и полученного качества. IMHO, вроде нашел :). Естественно, никто не обязывает ею пользоваться, но в то же время прошу критиковать эту технологию, лишь опробовав и сравнив с другими опробованными.
===
Сначала - необходимый софт:
1) Able Fax Tif View 1.9.11 (версии постоянно обновляются). Доступна для скачивания Trial версия. При желании и возможности не жаль и купить, инструмент хороший, и запрашиваемых денег стоит.
Разработчик:
http://www.graphicregion.com/download.htm Скачивать:
http://www.graphicregion.com/faxtifview.htm?clickfrom=faxtifview_1.9.11.27 Достоинства этой программы:
- Пакетная обработка(File>Batch process...) есть и отлично работает.
- Deskew(выравнивание) работает без нареканий. За 800 файлов один(или два) сбоя, и то при
таблице, расположенной "боком вверх". Сбой с рисунком не считаю - там
как раз программа выровняла страницу по первой сплошной диагональной линии
в рисунке :)
- Despeckle(чистка "мусора") настраиваемый по площади "Isolated pixel".
- Переход к следующему файлу стрелкой на тулбаре.
- Сохранение в один клик.
- Eraser ("ластик") есть и при этом его площадь настраивается.
- Конвертор RGB>GreyScale>B/W есть, и при этом с кучей параметров.
- Tiff'ы G4 корректные.
Можно было бы улучшить, но и так нормально:
- Crop("Вырезать") на тулбар вывести нельзя, но можно присвоить комбинацию горячих клавиш. Правый клик на тулбаре>Customize>Hot keys
Надо улучшить:
- Инструмент "Auto Crop Edge Space". При чистых сканах работает без нареканий. Правильно определяет границы текста, отрезает поля. Следующая операция - "Add Margins" - и... был бы результат, но проблема в том, что "Auto Crop Edge Space" не всегда работает корректно. Может "споткнуться" на любой точке между текстом и краем листа, приняв эту точку за текст. Пока что этим инструментом можно пользоваться лишь с большими оговорками.
К несомненным достоинствам программы следует отнести широкий выбор инструментов в батче. User filters при грамотной настройке позволяют сделать текст заметно четче, "зарастить" пустые места в буквах.
Черно-белый Remove Noise - это просто супер!
2) XnView 1.90
Разработчик: www.xnview.com
Скачивать:
http://perso.orange.fr/pierre.g/xnview/endownloadwin32.html Этот софт умеет все, глючит в меру, лицензия Freeware для некоммерческого использования.
Ни в коем случае нельзя пользоваться всеми предложенными опциями без их предварительного тестирования, поскольку, повторюсь, глюков достаточно и при этом самых неожиданных.
Достоинства этой программы:
- пакетное переименование файлов
- много опций
- работа с неимоверным количеством форматов
- временами очень хорошо продуманный интерфейс
Недостатки:
- как уже упоминалось, глюки;
- неизвестно, будут ли появляться новые версии. Актуальная версия выпущена достаточно давно.
Примечание: из фриварных просмотрщиков графики многим больше нравится IrfanView. Смотрите, сравнивайте ;).
С точки зрения поставленной специфической задачи обработки сканов XnView пока смотрится предпочтительнее.
Но несомненный плюс IrfanView в том, что он развивается, и корректно работает с форматом TIFF G4.
Например, после обработки сканов в XnView их надо пересохранить в тот же TIFF G4 в Irfan'e. Конвертор дежавю не будет ругаться ;).
3) Графический редактор.
Многие пользуются Adobe Photoshop. Я считаю применение этого софта для обработки сканов нецелесообразным.
Я пользуюсь GIMP'ом. GIMP в паре с XnView - вполне самодостаточное решение.
Сайт разработчиков:
http://www.gimp.org/ Скачать:
http://www.gimp.org/downloads/ Примечание: по большому счету, можно и чем-то вроде примитивного Paintbrush'а обойтись и полученные файлы в XnView конвертировать - не рисуем же и не фотки же обрабатываем ;).
====
Итак, софт есть.
Имеется: папка "А" со сканами в Tiff G4, нумерация(условно) от 001.tif до,
предположим, 250.tif; папка "B" со сканами рисунков и фотографий в
серых джепегах.
1) В XnView делаем поворот на 90 градусов (если необходимо) и конвертацию в B/W (после поворота) для всех файлов
сразу (иначе после поворота фалы из черно-белых будут преобразованы в серые).
2) Скопировать все сканы в другую папку А1.
3) Переименовать сканы в одной директории как четные страницы, в
другой - как нечетные. В XnView есть небольшой глюк - при
переименовании от 1 до 100 и больше забывает поставить два нуля перед
файлами с 1 по 9 и нуль перед 10-99. Поэтому я переименовываю, начиная с 100 номера. Не забываем шаг переименовывания - 2, чтобы номера файлов
соответствовали номерам страниц.
У Irfan'а глюк - первый файл становится последним по нумерации.
Естественно, можно использовать и любой другой софт для переименования батчем, например, ReNamer by den4b.
4) Копируем содержимое папки "А1" в "А". Папку "А1" можно удалять. В итоге у нас по два
одинаковых файла подряд - например, один и тот же файл под номером 016
и 017. Это нужно для следующей операции.
5) Дальше - ручная резка. Если сканы можно резать пакетно (батчем) - то XnView
или IrfanView. Но, если есть кривые страницы, то на автомате лучше не резать.
Я использую XnView - отметил поле, режу кнопкой "Crop"(выведена на
тулбар), Ctrl+S, Enter.
Как сделать все страницы одинаковыми при ручной обработке инструментом "Crop".
XnView: Выделяем область, которая, как нам кажется по одной странице:),
будет одинаково хороша для всех остальных. Внимательно смотрим на поля, чтобы результат выглядел приемлемо.
Edit> Set selection size> Save selection as custom.
Если надо сменить шаблон - Edit> Set selection ratio> Free ,
и потом сохраняем новую рамку Edit> Set selection size> Save selection as custom. Глючновато, нелогично - но работает!
Шаблон вызывается горячей клавишей "С". Это очень удобно. Переход к
следующему файлу, левой рукой "С", мышью шаблон устанавливается на
область текста, , мышью на кнопку "Crop", левой рукой CTRL+S, Мышью -
"ОК", переход к следующему файлу. Это быстрее сделать, чем описать :).
7) После всех операций открываем итоговую папку "А", выбираем вид с превьюшками (Thumbnails). Windows их делает достаточно долго, требуется подождать несколько минут. Просматриваем и проверяем результат всех предыдущих преобразований.
Делаем бэкап - копируем папку "А" в другое место на жестком диске. Вдруг пригодится :).
8) Если надо сделать страницы с картинками.
Открываю черно-белый тифф из папки "А" и серый или цветной джепег из папки "В" в двух окнах в GIMP'e. Выделяю и копирую серую картинку в страницу с черно-белым текстом. К серой картинке как правило требуется применить Gaussian Blur, параметры надо подобрать по факту, попробовав несколько раз сконвертировать "размытую" в той или иной степени картинку в djvu. Сохраняю как Tiff LZW в папку "А" поверх старого файла. В данном случае текст хоть и "серый" или "цветной" по битам, но по
существу он остался черным.
Анализаторам при создании DJVU работать с такой страницей будет несравненно проще, чем если бы вся
страница(и рисунки, и текст) была сканирована в сером.
Размер такой страницы достаточно большой - иногда и около 4-5 мегов, но на
размере итогового дежавю это практически никак не сказывается.
9) Готово к экспорту.
Обработка 100-150 сканов, т.е. 200-300 страниц, по такой технологии занимает от 40 минут до часа.