On-line: guests 0. In total there are: 0 [information..]
AuthorTopic



link post  Posted: 27.03.08 12:59. Post subject: Секреты распознавания.


Не легкая это дело – распознавать сканы, особенно, если они имеют дефекты (грязь, черные полосы, бледный текст, сжатость и т.д.)
Но не будем унывать. Можно и облегчить работу.

Нам нужно будет PhotoShop, начиная с версии 6.0. по 1х.0 (или другой полноценный графический редактор) и ABBYY FineReader 9.0.

Photoshop устранит те дефекты, которые присущи сканам.
(Ведь часто бывает, что человек, который сканирует книги не думает о человеке, который будет их распознавать. ИМХО!)
Файнридер 9.0 - быстро и хорошо распознает сканы и покажет орфографические ошибки и исправит их, что ускорит нашу работу.
И конечно (желательно) хороший комп с большой оперативной памятью - 1, а лучше 2 Гб.

Очень часто сканы сжаты, да к тому же и текст бывает бледный, что приводит к плохому качеству распознавания и большим орфографическим ошибкам даже в Файнридере 9.0, если распознавать как есть. Особенно если сканы «убитые».

1. Итак открываем первый скан в Фотошопе.
Чтоб убыстрить редактирование сканов в Фотошопе - создаем Скрипт (Action) – на панели выбираем меню «Window” -> «Action”.
При создании Скрипта (сначала создается папка, а в папке сам файл Скрипт (action) – при его создании он сразу входит в режим записи (record). Как только Скрипт в режиме записи выбираем в панели меню «Image» -> выбираем «Mode» -> «Grayscale» - оставляем «1».
Затем снова меню «Image» -> «Image Size». Тут выбирает разрешение (dpi) скана - ставим 500. Если убитый скан - 600.
В меню «File» - сохраняем (Save) скан и закрываем (Close) его.
Теперь останавливаем Скрипт - (stop).
Закрываем этот скан.
Теперь можно эти изменения распространить сразу на все сканы в рабочей папке.
Входим в меню «File» -> «Automate» -> «Batch».
В «Batch» выбираем наш Скрипт и папку со сканами и нажимаем на «ОК». - Фотошоп сам отредактирует все сканы в рабочей папке без вашего участия.
Если скан бледный или много грязи - уж тут лучше каждый скан отредактировать отдельно Бледность скана исправляется в меню «Image» -> «Adjustments» -> «Curves» или «Brightness/Contrast».
Если текст в скане достаточно крив из-за не лучшего сканирования, то надо его вернуть в первоначальный вид - меню «Edit» -> «Transform» -> «Rotate»
На редактирование уйдет меньше времени, чем потом исправлять многочисленные орфографические ошибки или вбивать самому текст в Файнридер 9.0.
Конечно, Файнридер 9.0. обещает, что он сам исправит последние вышеприведенные огрехи скана, но пускай он выполняет свою основную работу – распознавание скана. А Фотошоп лучше справится со своей работой.
Один минус - каждый файл может увеличиться в размере с 12 до 25 Мб. Но с современным компом это пустяк.

2. Теперь открываем отредактированные в Фотошопе сканы в Файнридере 9.0.
Даже такие большие сканы (500-600 dpi, размер - 25 Мб) Файнридер 9.0 откроет быстро и быстро распознает при соответствующем компе.

Чтобы Файнридер 9.0 в тексте, который набран дореволюционным способом, ставил знак переноса (повернутое «г») после не законченного слова, переходящего на другую строку, нужно поставить языки для распознавания (меню «Сервис» -> «Редактор языков»): «Русский и «Русский старый», а если есть и латинские буквы, например французские слова, то прибавить и «Французский» - «Французский, Русский, Русский старый».
Конечно, не всегда Файнридер поставит знак переноса после распознавания скана, но его можно скопировать и вставить там, где стоит тире «-».
Как только распознан скан, входим в окно редактирования текста - «Текст».
Сначала сознаем новый стиль для текста - выбираем меню «Сервис» -> «Редактор стилей» и создаем новый - ставим в параметрах шрифт «Time New Roman», размер шрифта – от 8 до 10 в зависимости от размера шрифта в скане. Это будет полезно, когда будете перекидывать текст из Офиса в HTML-редактор или сохранять текст как html-файл - меньше мусора.
Теперь выделяем весь текст на странице - выбираем вами созданный «стиль» и выбираем язык «Русский». И желательно выравнивание текста – в ширину.
Теперь в окне «Текст» можно исправлять орфографические ошибки, которые нашел Файнридер 9.0.
Как только вы готовы текст в документе Файнридера 9.0 перекинуть в Офис, то на панели окна «Текст» меняем «Точная копия» на «Форматированный текст» и перекидываем текст в Офис.

3. Для тех кто хочет помочь ускорить опубликование распознанной статьи (книги) на сайте, тому нужно установить, например, Microsoft Office 97. Скинутый из Файнридера текст сохраняете как html-файл. Данная версия Офиса отличается от последующих тем, что в html-файле нету того «мусора», которые появляется в большом количестве в последующих версиях Офиса.


Спасибо: 0 
ProfileQuote Reply
Replys - 53 , page: 1 2 3 4 All [new only]





link post  Posted: 16.04.08 12:42. Post subject: Хальги, ты не вышлеш..


Хальги, ты не вышлешь этот свой словарь русского старого мне ? Чисто файл.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 17.04.08 15:27. Post subject: Thietmar пишет: Хал..


Thietmar пишет:

 quote:
Хальги


От так меня еще точно не обзывали... %=0

Тебе от 7-го или от 9-го?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 17.04.08 17:05. Post subject: Halgar пишет: От та..


Halgar пишет:

 quote:
От так меня еще точно не обзывали... %=0



Всё когда-то бывает впервые!

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 18.04.08 12:31. Post subject: Halgar пишет: От та..


Halgar пишет:

 quote:
От так меня еще точно не обзывали... %=0



Нормальное сокращение от хальгар. От седьмого.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 21.04.08 07:24. Post subject: Thietmar пишет: От ..


Thietmar пишет:

 quote:
От седьмого.

А можно и мне... по...по...по....пожалуста! как-нибудь потом, когда время будет... от седьмого или от девятого.. у меня оба установлены.

Спасибо: 0 
Quote Reply



link post  Posted: 29.04.08 11:26. Post subject: Halgar а нет ли у В..


Halgar
а нет ли у Вас случайно статьи?
Писарев Ю.И. К вопросу о характере и составе свит английских феодалов первой половины XIV в. // Вестник МГУ, серия «История», 1972 г., № 3.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.04.08 16:02. Post subject: Товарищи! я тут опро..


Товарищи! я тут опробывал фанридер9, могу сказать что действительно очень хоош. Немного мудренный конечно по сранению с 7 но все же.

Вопрос со словарем "Старый русский" Оказываетьс яон есть в стандартной комплектации. Я его установл. Но оказалось что толку то от этого почти нет. Самое главное это то что расозновать он распознает но текст строит именно на основе старой русской орфографии. А существуют ли установки в фр, что бы он разпозновал старую орфографию и менял бы ее сразу на современную автоматически? Или жде может быь существуют такие функции в Ворде? И еще у меня "еть" например не отражаеться в тексте, показывает что отсуствует знак, наеврно это из-за шрифта Что же делаь?

Спасибо: 0 
Quote Reply



link post  Posted: 30.04.08 08:28. Post subject: ­Макс пишет: а нет л..


*PRIVAT*

Спасибо: 0 
ProfileQuote Reply
Replys - 53 , page: 1 2 3 4 All [new only]
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 15
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no