On-line: guests 0. In total there are: 0 [information..]
AuthorTopic





link post  Posted: 14.12.06 03:37. Post subject: Краткое руководство по обработке сканов


Итак, есть готовые сканы.

(дополнено 2007.01.07)
Формат сканов - TIFF G4.
Внесены значительные изменения - 2007.10.29

Это могут быть сканы одной страницы или же разворота из двух страниц; они могут быть ориентированы правильно или же повернуты на 90 градусов.

Если сканы будут использоваться для распознавания, то простейшие операции по их повороту (и автоматически - выравниванию и очистке от мусора) будут выполнены в OCR-софте.

Если же требуется сделать сканы доступными, не тратя время на их распознавание, то требуется предварительная обработка сканов для их дальнейшего экспорта в какой-либо широко распространенный и удобный формат (pdf или djvu). Это не так принципиально, в какой именно. На данном этапе задача обработки графических фалов (сканов) может быть сведена к следующим операциям:

- Обрезать черные края
- Выровнять сканированный текст параллельно верхней кромке листа
- Очистить сканы от "мусора"
- Сделать листы одинаковыми, эстетически приемлемыми для восприятия при чтении (выровнять поля, прменить сглаживание).

В рунете существует множество в большей или меньшей степени подробных технологий предварительной обработки сканов.
Технологии разной степени сложности, основываются на разном софте.

Перед тем, как привести описание еще одной технологии, я хотел бы изложить свою точку зрения на созадние технологий вообще.

Можно сделать максимально эффективную технологию, использовав максимально эффективный софт. Но она будет очень сложна для освоения, софт будет сложным с точки зрения дружественности пользовательского интерфейса и при этом размеры софта будут иногда неприятно удивлять. Можно не делать никакой технологии, пользоваться тем, что знакомо. Тогда к делу можно приступать буквально сразу - но процесс будет низкоэффективным при обработке уже хотя бы нескольких книг.
Я не могу сказать, что ниже приведенная технология максимально проста. Не могу также сказать, что она максимально эффективна. Я искал некий компромисс, "золотую середину", оцененную по своему разумению. Пытался создать технологию, простую для освоения и вместе с тем достаточно эффективную с точки зрения потраченного времени и полученного качества. IMHO, вроде нашел :). Естественно, никто не обязывает ею пользоваться, но в то же время прошу критиковать эту технологию, лишь опробовав и сравнив с другими опробованными.

===

Сначала - необходимый софт:

1) Able Fax Tif View 1.9.11 (версии постоянно обновляются). Доступна для скачивания Trial версия. При желании и возможности не жаль и купить, инструмент хороший, и запрашиваемых денег стоит.
Разработчик: http://www.graphicregion.com/download.htm
Скачивать: http://www.graphicregion.com/faxtifview.htm?clickfrom=faxtifview_1.9.11.27

Достоинства этой программы:
- Пакетная обработка(File>Batch process...) есть и отлично работает.
- Deskew(выравнивание) работает без нареканий. За 800 файлов один(или два) сбоя, и то при
таблице, расположенной "боком вверх". Сбой с рисунком не считаю - там
как раз программа выровняла страницу по первой сплошной диагональной линии
в рисунке :)
- Despeckle(чистка "мусора") настраиваемый по площади "Isolated pixel".
- Переход к следующему файлу стрелкой на тулбаре.
- Сохранение в один клик.
- Eraser ("ластик") есть и при этом его площадь настраивается.
- Конвертор RGB>GreyScale>B/W есть, и при этом с кучей параметров.
- Tiff'ы G4 корректные.

Можно было бы улучшить, но и так нормально:
- Crop("Вырезать") на тулбар вывести нельзя, но можно присвоить комбинацию горячих клавиш. Правый клик на тулбаре>Customize>Hot keys

Надо улучшить:
- Инструмент "Auto Crop Edge Space". При чистых сканах работает без нареканий. Правильно определяет границы текста, отрезает поля. Следующая операция - "Add Margins" - и... был бы результат, но проблема в том, что "Auto Crop Edge Space" не всегда работает корректно. Может "споткнуться" на любой точке между текстом и краем листа, приняв эту точку за текст. Пока что этим инструментом можно пользоваться лишь с большими оговорками.

К несомненным достоинствам программы следует отнести широкий выбор инструментов в батче. User filters при грамотной настройке позволяют сделать текст заметно четче, "зарастить" пустые места в буквах.

Черно-белый Remove Noise - это просто супер!

2) XnView 1.90
Разработчик: www.xnview.com
Скачивать: http://perso.orange.fr/pierre.g/xnview/endownloadwin32.html

Этот софт умеет все, глючит в меру, лицензия Freeware для некоммерческого использования.
Ни в коем случае нельзя пользоваться всеми предложенными опциями без их предварительного тестирования, поскольку, повторюсь, глюков достаточно и при этом самых неожиданных.

Достоинства этой программы:
- пакетное переименование файлов
- много опций
- работа с неимоверным количеством форматов
- временами очень хорошо продуманный интерфейс

Недостатки:
- как уже упоминалось, глюки;
- неизвестно, будут ли появляться новые версии. Актуальная версия выпущена достаточно давно.

Примечание: из фриварных просмотрщиков графики многим больше нравится IrfanView. Смотрите, сравнивайте ;).
С точки зрения поставленной специфической задачи обработки сканов XnView пока смотрится предпочтительнее.
Но несомненный плюс IrfanView в том, что он развивается, и корректно работает с форматом TIFF G4.
Например, после обработки сканов в XnView их надо пересохранить в тот же TIFF G4 в Irfan'e. Конвертор дежавю не будет ругаться ;).


3) Графический редактор.
Многие пользуются Adobe Photoshop. Я считаю применение этого софта для обработки сканов нецелесообразным.
Я пользуюсь GIMP'ом. GIMP в паре с XnView - вполне самодостаточное решение.
Сайт разработчиков: http://www.gimp.org/
Скачать: http://www.gimp.org/downloads/

Примечание: по большому счету, можно и чем-то вроде примитивного Paintbrush'а обойтись и полученные файлы в XnView конвертировать - не рисуем же и не фотки же обрабатываем ;).

====

Итак, софт есть.

Имеется: папка "А" со сканами в Tiff G4, нумерация(условно) от 001.tif до,
предположим, 250.tif; папка "B" со сканами рисунков и фотографий в
серых джепегах.
1) В XnView делаем поворот на 90 градусов (если необходимо) и конвертацию в B/W (после поворота) для всех файлов
сразу (иначе после поворота фалы из черно-белых будут преобразованы в серые).
2) Скопировать все сканы в другую папку А1.
3) Переименовать сканы в одной директории как четные страницы, в
другой - как нечетные. В XnView есть небольшой глюк - при
переименовании от 1 до 100 и больше забывает поставить два нуля перед
файлами с 1 по 9 и нуль перед 10-99. Поэтому я переименовываю, начиная с 100 номера. Не забываем шаг переименовывания - 2, чтобы номера файлов
соответствовали номерам страниц.
У Irfan'а глюк - первый файл становится последним по нумерации.
Естественно, можно использовать и любой другой софт для переименования батчем, например, ReNamer by den4b.
4) Копируем содержимое папки "А1" в "А". Папку "А1" можно удалять. В итоге у нас по два
одинаковых файла подряд - например, один и тот же файл под номером 016
и 017. Это нужно для следующей операции.
5) Дальше - ручная резка. Если сканы можно резать пакетно (батчем) - то XnView
или IrfanView. Но, если есть кривые страницы, то на автомате лучше не резать.

Я использую XnView - отметил поле, режу кнопкой "Crop"(выведена на
тулбар), Ctrl+S, Enter.

Как сделать все страницы одинаковыми при ручной обработке инструментом "Crop".
XnView: Выделяем область, которая, как нам кажется по одной странице:),
будет одинаково хороша для всех остальных. Внимательно смотрим на поля, чтобы результат выглядел приемлемо.
Edit> Set selection size> Save selection as custom.
Если надо сменить шаблон - Edit> Set selection ratio> Free ,
и потом сохраняем новую рамку Edit> Set selection size> Save selection as custom. Глючновато, нелогично - но работает!

Шаблон вызывается горячей клавишей "С". Это очень удобно. Переход к
следующему файлу, левой рукой "С", мышью шаблон устанавливается на
область текста, , мышью на кнопку "Crop", левой рукой CTRL+S, Мышью -
"ОК", переход к следующему файлу. Это быстрее сделать, чем описать :).

7) После всех операций открываем итоговую папку "А", выбираем вид с превьюшками (Thumbnails). Windows их делает достаточно долго, требуется подождать несколько минут. Просматриваем и проверяем результат всех предыдущих преобразований.

Делаем бэкап - копируем папку "А" в другое место на жестком диске. Вдруг пригодится :).

8) Если надо сделать страницы с картинками.
Открываю черно-белый тифф из папки "А" и серый или цветной джепег из папки "В" в двух окнах в GIMP'e. Выделяю и копирую серую картинку в страницу с черно-белым текстом. К серой картинке как правило требуется применить Gaussian Blur, параметры надо подобрать по факту, попробовав несколько раз сконвертировать "размытую" в той или иной степени картинку в djvu. Сохраняю как Tiff LZW в папку "А" поверх старого файла. В данном случае текст хоть и "серый" или "цветной" по битам, но по
существу он остался черным.

Анализаторам при создании DJVU работать с такой страницей будет несравненно проще, чем если бы вся
страница(и рисунки, и текст) была сканирована в сером.
Размер такой страницы достаточно большой - иногда и около 4-5 мегов, но на
размере итогового дежавю это практически никак не сказывается.

9) Готово к экспорту.
Обработка 100-150 сканов, т.е. 200-300 страниц, по такой технологии занимает от 40 минут до часа.

Спасибо: 0 
ProfileQuote Reply
Replys - 1 [new only]







link post  Posted: 07.01.07 13:46. Post subject: Дополнение


Выравнивание и очистка сканов:

Требуется софт для пакетного "Deskew" + графический редактор для обработки одиночных файлов с большим количеством "грязи". Например, изредка попадаются страницы с множеством пометок, сделанных карандашом. Такие пометки не всегда убираются полностью даже при правильном выборе порога Threshold. Приходится чистить их вручную.

В качестве иллюстрации приведу пример проприетарного софта, выполняющего выравнивание и очистку сканов в TIFF G4 батчем:
http://download.support.xerox.com/pub/drivers/WF_6204/utils/winxp/en/WideFormatScanServiceVer1.0.2.1_XC.zip
Лицензионное соглашение предусматривает "просто" наличие у пользователя широкоформатного сканера Xerox, других ограничений нет.
Despeckling работает отлично.
Deskewing - из 780 файлов примерно в полутора-двух десятках сканов выравнивание было сделано с разными ошибками (от немного кривых до сильно кривых).
В программе прерасно реализована функция просмотра "превьюшек" - работает потрясающе быстро, при этом превьюшки превосходного качества и больших размеров. По ним очень легко визуально проверить, насколько правильно выполнена операция выравнивания.

Остается надеяться, что будет создана и подобная фриварная программа.


Спасибо: 0 
ProfileQuote Reply
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 9
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no