On-line: guests 1. In total there are: 1 [information..]
AuthorTopic



link post  Posted: 27.03.08 12:59. Post subject: Секреты распознавания.


Не легкая это дело – распознавать сканы, особенно, если они имеют дефекты (грязь, черные полосы, бледный текст, сжатость и т.д.)
Но не будем унывать. Можно и облегчить работу.

Нам нужно будет PhotoShop, начиная с версии 6.0. по 1х.0 (или другой полноценный графический редактор) и ABBYY FineReader 9.0.

Photoshop устранит те дефекты, которые присущи сканам.
(Ведь часто бывает, что человек, который сканирует книги не думает о человеке, который будет их распознавать. ИМХО!)
Файнридер 9.0 - быстро и хорошо распознает сканы и покажет орфографические ошибки и исправит их, что ускорит нашу работу.
И конечно (желательно) хороший комп с большой оперативной памятью - 1, а лучше 2 Гб.

Очень часто сканы сжаты, да к тому же и текст бывает бледный, что приводит к плохому качеству распознавания и большим орфографическим ошибкам даже в Файнридере 9.0, если распознавать как есть. Особенно если сканы «убитые».

1. Итак открываем первый скан в Фотошопе.
Чтоб убыстрить редактирование сканов в Фотошопе - создаем Скрипт (Action) – на панели выбираем меню «Window” -> «Action”.
При создании Скрипта (сначала создается папка, а в папке сам файл Скрипт (action) – при его создании он сразу входит в режим записи (record). Как только Скрипт в режиме записи выбираем в панели меню «Image» -> выбираем «Mode» -> «Grayscale» - оставляем «1».
Затем снова меню «Image» -> «Image Size». Тут выбирает разрешение (dpi) скана - ставим 500. Если убитый скан - 600.
В меню «File» - сохраняем (Save) скан и закрываем (Close) его.
Теперь останавливаем Скрипт - (stop).
Закрываем этот скан.
Теперь можно эти изменения распространить сразу на все сканы в рабочей папке.
Входим в меню «File» -> «Automate» -> «Batch».
В «Batch» выбираем наш Скрипт и папку со сканами и нажимаем на «ОК». - Фотошоп сам отредактирует все сканы в рабочей папке без вашего участия.
Если скан бледный или много грязи - уж тут лучше каждый скан отредактировать отдельно Бледность скана исправляется в меню «Image» -> «Adjustments» -> «Curves» или «Brightness/Contrast».
Если текст в скане достаточно крив из-за не лучшего сканирования, то надо его вернуть в первоначальный вид - меню «Edit» -> «Transform» -> «Rotate»
На редактирование уйдет меньше времени, чем потом исправлять многочисленные орфографические ошибки или вбивать самому текст в Файнридер 9.0.
Конечно, Файнридер 9.0. обещает, что он сам исправит последние вышеприведенные огрехи скана, но пускай он выполняет свою основную работу – распознавание скана. А Фотошоп лучше справится со своей работой.
Один минус - каждый файл может увеличиться в размере с 12 до 25 Мб. Но с современным компом это пустяк.

2. Теперь открываем отредактированные в Фотошопе сканы в Файнридере 9.0.
Даже такие большие сканы (500-600 dpi, размер - 25 Мб) Файнридер 9.0 откроет быстро и быстро распознает при соответствующем компе.

Чтобы Файнридер 9.0 в тексте, который набран дореволюционным способом, ставил знак переноса (повернутое «г») после не законченного слова, переходящего на другую строку, нужно поставить языки для распознавания (меню «Сервис» -> «Редактор языков»): «Русский и «Русский старый», а если есть и латинские буквы, например французские слова, то прибавить и «Французский» - «Французский, Русский, Русский старый».
Конечно, не всегда Файнридер поставит знак переноса после распознавания скана, но его можно скопировать и вставить там, где стоит тире «-».
Как только распознан скан, входим в окно редактирования текста - «Текст».
Сначала сознаем новый стиль для текста - выбираем меню «Сервис» -> «Редактор стилей» и создаем новый - ставим в параметрах шрифт «Time New Roman», размер шрифта – от 8 до 10 в зависимости от размера шрифта в скане. Это будет полезно, когда будете перекидывать текст из Офиса в HTML-редактор или сохранять текст как html-файл - меньше мусора.
Теперь выделяем весь текст на странице - выбираем вами созданный «стиль» и выбираем язык «Русский». И желательно выравнивание текста – в ширину.
Теперь в окне «Текст» можно исправлять орфографические ошибки, которые нашел Файнридер 9.0.
Как только вы готовы текст в документе Файнридера 9.0 перекинуть в Офис, то на панели окна «Текст» меняем «Точная копия» на «Форматированный текст» и перекидываем текст в Офис.

3. Для тех кто хочет помочь ускорить опубликование распознанной статьи (книги) на сайте, тому нужно установить, например, Microsoft Office 97. Скинутый из Файнридера текст сохраняете как html-файл. Данная версия Офиса отличается от последующих тем, что в html-файле нету того «мусора», которые появляется в большом количестве в последующих версиях Офиса.


Спасибо: 0 
ProfileQuote Reply
Replys - 53 , page: 1 2 3 4 All [new only]





link post  Posted: 10.04.08 01:45. Post subject: Интересно, чего твор..


Интересно, чего творит с текстом опенофис, если потом просмотреть его можно только в браузере... В блокноте виндовом такие сочные каракули, что диву даешься.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.04.08 04:15. Post subject: Опенофис действитель..


Опенофис действительно с майрософтофскими изделями крайне мало совместим.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.04.08 12:15. Post subject: Интересно, чего твор..



 quote:
Интересно, чего творит с текстом опенофис, если потом просмотреть его можно только в браузере... В блокноте виндовом такие сочные каракули, что диву даешься.



Просто блокнот не знает других кодировок, кроме мелкомягких. К счастью, это не единственный редактор :) Хотя надо признать, что самый полный шрифт для юникода- майкрософтовский.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.04.08 15:06. Post subject: Вообще-то это был не..


Вообще-то это был не стандартный виндовый блокнот. :) Каюсь. Спецблокнот для кодинга.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 12.04.08 00:02. Post subject: Итак, я тут попыталс..


Итак, я тут попытался исправлять ошибки в фанридере 7. ошибок было очень много, и после второй страницы все это дело мне порядком надоело. Интересночто далеко не все ошибки фанридер принимал за таковые, ну к примеру слово "последн1й", он никак не отмечал за ошибку. Я сделал вывод что ошибкой файнридер считает только те слова в которых он прираспозновании засомневался.

В итоге я бросил эту идею и опять перешел на ворд,.. Даже если предположить, что время затраченное на исправление ошибок в FR быдут меньше, сам процесс меня сильно напряг. И даже если я пересилю себя и все исправлю.. то возможно возникнит жуткое нежелание заниматься этим и дальше.

Спасибо: 0 
Quote Reply



link post  Posted: 12.04.08 02:43. Post subject: Камрад, щас тебе ска..


Камрад, щас тебе скажут, что 7 файнридер отстой. Надо пользовать девятый, там все круто.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 13.04.08 16:48. Post subject: Я не хамлю! Но когд..


Я не хамлю!
Но когда говорят : "Комплекс - как раз в файнридере работать, ибо это сильно замедляет вычитку текста."
- это что истина в последней инстанции ?! Никогда не соглашусь!

"1. Увеличивать DPI скана по-моему бесполезно. Очертания букв от этого четче не становятся. А вот распознавание с обучением помогает."

- А по моему опыта как раз улучшает. И не надо никакого "обучения".

"Камрад, щас тебе скажут, что 7 файнридер отстой. Надо пользовать девятый, там все круто"

- Как вы угадали ?!!! Но для Stori я вижу хватит и версией 4.0.

Предлагаю Thietmar удалить эту тему вообще.


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 14.04.08 00:12. Post subject: Я бы удалил только л..


Я бы удалил только личные выпады, а полезные советы оставил.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 14.04.08 01:30. Post subject: Benderod, тебе сколь..


Benderod, тебе сколько лет?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 14.04.08 07:46. Post subject: Strori пишет: И не ..


Strori пишет:

 quote:
И не надо никакого "обучения".


Трудно мне с вам спорить конечно, весь мой опыт это работа в 7 FR, опытки установить 9, пок ане увенчались успехом. Но функция обучения в FR мне кажеться очень полезной. например в прошлом тексте c которым я работал, большинство букв "и", выглядело ка кдве волнистые вертикальные черты с утолщениями сверху (направой) и снизу (на левой черте), специально заметил около дюжины слов в которых были ошибки, после обучения (на других страницах), в этих словах мой FR неправильно распознал лишь 2 знака. Так что создание пользовательского эталона для распознования считаю очень целесообразным для исправления ошибок, особенно если речь идет о низкокачественных в типографском смысле источниках.

Спасибо: 0 
Quote Reply



link post  Posted: 14.04.08 07:49. Post subject: блин простите за оши..


блин простите за ошибки, печатаю быстро

Спасибо: 0 
Quote Reply



link post  Posted: 14.04.08 09:17. Post subject: Это где я такое писа..


Это где я такое писал???

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 15.04.08 16:45. Post subject: Странно, ничего не п..


Странно, ничего не понял... это писал Benderod и ему я и отвечал.. наеврно я как всегда куда-нибудь не туда нажал.

Кстати FR 9 я установил... Первое вппечатление - слишком мудро для такого просто парня как я. Может быть привыкну. Но интерфес 7го, уютный и понятный, мне нравился больше.

А на счет ошибок, тоя сразу сдела проверку. Пока разницы конкрено в распозновании не отметил... Правдо и картинки я подсунул плохие. И еще при автоматическом распозновании заметил такую особенность что 9й принимал ксераксные пятна за текст гораздо активнее 7й версии. А это может создать немного неудобств когда сканов будет много.

Я тут слышал что существует доп. словарь к FR "Русский старый", но у меня он не установлен, я так понимаю его надо где-нибудь найти и установить... Но вот вопрос ГДЕ?



Спасибо: 0 
Quote Reply



link post  Posted: 15.04.08 16:48. Post subject: Думаю я продолжу экс..


Думаю я продолжу эксперементы... Но все же думаю что процесс совершенствования и уменьшения количества ошибок лежим все-таки где-то в сфере ВЕЛИКОГО ФОТОШОПА

Спасибо: 0 
Quote Reply



link post  Posted: 16.04.08 12:37. Post subject: Владислав пишет: Я ..


Владислав пишет:

 quote:
Я тут слышал что существует доп. словарь к FR "Русский старый", но у меня он не установлен, я так понимаю его надо где-нибудь найти и установить... Но вот вопрос ГДЕ?



В моем 7-м он указывался в базовой установке. Можно ли доустановить - надо проверять экспериментально...

Спасибо: 0 
ProfileQuote Reply
Replys - 53 , page: 1 2 3 4 All [new only]
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 6
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no