On-line: guests 1. In total there are: 1 [information..]
AuthorTopic



link post  Posted: 27.03.08 12:59. Post subject: Секреты распознавания.


Не легкая это дело – распознавать сканы, особенно, если они имеют дефекты (грязь, черные полосы, бледный текст, сжатость и т.д.)
Но не будем унывать. Можно и облегчить работу.

Нам нужно будет PhotoShop, начиная с версии 6.0. по 1х.0 (или другой полноценный графический редактор) и ABBYY FineReader 9.0.

Photoshop устранит те дефекты, которые присущи сканам.
(Ведь часто бывает, что человек, который сканирует книги не думает о человеке, который будет их распознавать. ИМХО!)
Файнридер 9.0 - быстро и хорошо распознает сканы и покажет орфографические ошибки и исправит их, что ускорит нашу работу.
И конечно (желательно) хороший комп с большой оперативной памятью - 1, а лучше 2 Гб.

Очень часто сканы сжаты, да к тому же и текст бывает бледный, что приводит к плохому качеству распознавания и большим орфографическим ошибкам даже в Файнридере 9.0, если распознавать как есть. Особенно если сканы «убитые».

1. Итак открываем первый скан в Фотошопе.
Чтоб убыстрить редактирование сканов в Фотошопе - создаем Скрипт (Action) – на панели выбираем меню «Window” -> «Action”.
При создании Скрипта (сначала создается папка, а в папке сам файл Скрипт (action) – при его создании он сразу входит в режим записи (record). Как только Скрипт в режиме записи выбираем в панели меню «Image» -> выбираем «Mode» -> «Grayscale» - оставляем «1».
Затем снова меню «Image» -> «Image Size». Тут выбирает разрешение (dpi) скана - ставим 500. Если убитый скан - 600.
В меню «File» - сохраняем (Save) скан и закрываем (Close) его.
Теперь останавливаем Скрипт - (stop).
Закрываем этот скан.
Теперь можно эти изменения распространить сразу на все сканы в рабочей папке.
Входим в меню «File» -> «Automate» -> «Batch».
В «Batch» выбираем наш Скрипт и папку со сканами и нажимаем на «ОК». - Фотошоп сам отредактирует все сканы в рабочей папке без вашего участия.
Если скан бледный или много грязи - уж тут лучше каждый скан отредактировать отдельно Бледность скана исправляется в меню «Image» -> «Adjustments» -> «Curves» или «Brightness/Contrast».
Если текст в скане достаточно крив из-за не лучшего сканирования, то надо его вернуть в первоначальный вид - меню «Edit» -> «Transform» -> «Rotate»
На редактирование уйдет меньше времени, чем потом исправлять многочисленные орфографические ошибки или вбивать самому текст в Файнридер 9.0.
Конечно, Файнридер 9.0. обещает, что он сам исправит последние вышеприведенные огрехи скана, но пускай он выполняет свою основную работу – распознавание скана. А Фотошоп лучше справится со своей работой.
Один минус - каждый файл может увеличиться в размере с 12 до 25 Мб. Но с современным компом это пустяк.

2. Теперь открываем отредактированные в Фотошопе сканы в Файнридере 9.0.
Даже такие большие сканы (500-600 dpi, размер - 25 Мб) Файнридер 9.0 откроет быстро и быстро распознает при соответствующем компе.

Чтобы Файнридер 9.0 в тексте, который набран дореволюционным способом, ставил знак переноса (повернутое «г») после не законченного слова, переходящего на другую строку, нужно поставить языки для распознавания (меню «Сервис» -> «Редактор языков»): «Русский и «Русский старый», а если есть и латинские буквы, например французские слова, то прибавить и «Французский» - «Французский, Русский, Русский старый».
Конечно, не всегда Файнридер поставит знак переноса после распознавания скана, но его можно скопировать и вставить там, где стоит тире «-».
Как только распознан скан, входим в окно редактирования текста - «Текст».
Сначала сознаем новый стиль для текста - выбираем меню «Сервис» -> «Редактор стилей» и создаем новый - ставим в параметрах шрифт «Time New Roman», размер шрифта – от 8 до 10 в зависимости от размера шрифта в скане. Это будет полезно, когда будете перекидывать текст из Офиса в HTML-редактор или сохранять текст как html-файл - меньше мусора.
Теперь выделяем весь текст на странице - выбираем вами созданный «стиль» и выбираем язык «Русский». И желательно выравнивание текста – в ширину.
Теперь в окне «Текст» можно исправлять орфографические ошибки, которые нашел Файнридер 9.0.
Как только вы готовы текст в документе Файнридера 9.0 перекинуть в Офис, то на панели окна «Текст» меняем «Точная копия» на «Форматированный текст» и перекидываем текст в Офис.

3. Для тех кто хочет помочь ускорить опубликование распознанной статьи (книги) на сайте, тому нужно установить, например, Microsoft Office 97. Скинутый из Файнридера текст сохраняете как html-файл. Данная версия Офиса отличается от последующих тем, что в html-файле нету того «мусора», которые появляется в большом количестве в последующих версиях Офиса.


Спасибо: 0 
ProfileQuote Reply
Replys - 53 , page: 1 2 3 4 All [new only]





link post  Posted: 28.03.08 02:57. Post subject: По-моему вычивать те..


По-моему вычивать текст в Ворде гораздо приятнее чем в файнридере.

По п. 3. Мусор в коде можно удалить, есть софт соответствующий. Вообще думаю, распознавателю не надо заморачиваться с html вариантами. Его задача выдать чистый текст, пригодный к изготовлению сетевой версии. Тут внимание надо акцентировать на самых простейших функциях ворда. НЕ НАДО химичить со спецвозможностями типа комментариев и ссылок на них. Только текст.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 28.03.08 17:13. Post subject: дейсвтительно я согл..


дейсвтительно я согласен что вычитывать текст в Ворде приятнее.
Исправлять ошибки в Ворде мне тоже сподручнее. Особенно нравиться функция замены одного слова другим (в фанридере эта функция наверно тоже есть). То есть взял "вЪ" ,"съ" и "къ" и заменил на в,с и к.

а еще такой вотвопрос, зависит ли количество ошибок от того что текст отсканирован был криво?

Спасибо: 0 
Quote Reply



link post  Posted: 29.03.08 04:52. Post subject: Скорее от качества с..


Скорее от качества самого текста (источника).

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 31.03.08 15:13. Post subject: Кстати в файнридере ..


Кстати в файнридере я с успехом применил функцию "распознать с обучением" для дореволюционных источников, успех конечно относительный. У меня файнридер седьмой и словаря "Русский старый" на нем не установлено.
Так вот я научил файнридер самостоятельно заменять "i" на "и". И "еть", так кажеться наываеться эта буква на "е". ошибок стало гораздо меньше. как писал выше, твердый (или мягкий знак,как иногда ставил мне файнридер) после предлогов я легко заменил в ворде.

Единственная пробелма с которой я ни как не могу справиться это буквы "Н,П,И". Какое бы не было качество сканов, какие бы ухищрения я бы не применял. Если в изночальном документе горизонтальной черточки нет, то и файнридер ставит то что ему вздумаеться. Обучение тут непомогает, и по сути бессмысленно и только увеличивает количество ошибок.

Спасибо: 0 
Quote Reply



link post  Posted: 02.04.08 16:46. Post subject: Интересен такой вопр..


Интересен такой вопрос какие приемущества дает файнридер 9 по сравнению в седьмой версией?



Спасибо: 0 
Quote Reply



link post  Posted: 07.04.08 07:25. Post subject: Вах-Вах


Господа. Автор статьи - я. Начнем с исправлением ошибок: Файнридер 9.0 в отличии от Ворда 2007 исправляет орфографические ошибки в словах, даже если их (ошибок) две. Попробуйте, чтоб Ворд сам исправил орфо. ошибки, если в слове их две, - только если одна.

Насчет "вЪ" ,"съ" и "къ" , "i" на "и". "еть" на"е" - всё это легко можно исправить в Файнридере 9.0.

Ну как же проще (и быстрее) исправлять ошибки в Ворде, если вам придется переключаться с Ворда к скану и обратно, чтоб проверить как правильно пишется слово, а если оно сложное или латинское ? Всё время запоминать? Ну как дети малые.

Насчёт мусора HTML. - Я делаю сетевые версии статей в НТМЛ для Титмара.
Файнридер 9 по сравнению в седьмой версией?
В отношении редактирования текста и его офро. ошибок - как небо и земля.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 07.04.08 07:39. Post subject: Файнридер 9.0.


Я работал и в Файнридере 7.0. и 8.0. Я считаю (по опыту), что Файнридер 9.0. получше распознает скан.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 07.04.08 08:36. Post subject: К вышесказанному пос..


К вышесказанному посту хочу ещё посоветовать: ставьте нумерацию страниц ([555]) в самом документе Файнридера. Это вам уменьшит время на оформление статьи (книги) в Ворде. Ведь часто бывает, что не сразу находишь конец страницы в Ворде.

Всё что я написал (3 поста плюс этот) - ТОЛЬКО для тех, кто хочет быстрее отправить Админу готовую БЕЗ ОШИБОК распознаную статью (книгу).

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 07.04.08 15:05. Post subject: 9-й ридер, действите..


9-й ридер, действительно, лучше распознает... но все остальное делает хуже. Та же расстановка страниц - почему нельзя обвести номер на скане зеленой рамочкой и уже в ворде его оформить? Потому, что 9-й ридер его понимает как колонтитул и в текст не вставляет...

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 07.04.08 15:33. Post subject: Владислав пишет: Ну..


Владислав пишет:

 quote:
Ну как же проще (и быстрее) исправлять ошибки в Ворде, если вам придется переключаться с Ворда к скану и обратно, чтоб проверить как правильно пишется слово, а если оно сложное или латинское ? Всё время запоминать? Ну как дети малые.

Я говорил что не проще , а приятнее , а отсюда и сподручнее. На счет исправления нескольких ошибок то я это тоже заметил... Но если в арспознаном тексте ошибок не так много (терпимо) и можно его нормально читать, то исправлятьошибки в Ворде мне приятнее.. занятие не превращаеться в монотонное истезание... Одовременно читаешь и исправляешь... к скану я обращаюсь когда естьсомнения на счет фамилий и населенных пунктов.
Окошко для ошибок в файнридере очень маленькое...

С другой стороны если скан убитый. У меня был такой случай.. Все пробовал, все что писали тут пробовал, делал разные форматы, редактировал в фотошопе, но ничего толкого так и не получилось (конечно, признаю, наеврно из-за моей неопытности). Но если в оригинале все 80% букв П, И,Н это две вертикальные черты, то обучать файнридер не имеет смысла.

В итоге пришлось тупо набивать текст от руки... Благо тут на помощь пришла техника печатать в слепую...


Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 08:01. Post subject: Halgar, а у мя встав..


Halgar, а у мя вставляет. Только щас проверил. Но и это не нужно. С точки экономии времени, лучше поставить в Файнридере в конец страницы номер следующей страницы, особенно полезно когда последнее слово разрывается и переходит на следующую страницу ("[500] за-"). Иначе в Ворде тебе надо будет двигать номер страницы к началу этого слова, ставить квадратные кавычки по бокам каждого номера, делать жирным текстом и придавать нужный цвет.


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.04.08 08:12. Post subject: Владислав, у меня не..


Владислав, у меня нет времени "Одовременно читаешь и исправляешь..." Я бегло читаю текст.
Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте.
Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара.
"к скану я обращаюсь когда есть сомнения на счет фамилий и населенных пунктов."
- поздравляю тебя, ты знаешь и латынь, и вообще латинские языки и греческий или у тебя они не встречались статьи.
"Но если в оригинале все 80% букв П, И,Н это две вертикальные черты"
- если другие буквы в слове "понятны" Файнридеру, то он не ставит чёртышки, а вставляет "п, и " или "н" сам, без обучения.
"Окошко для ошибок в файнридере очень маленькое... " - у меня тоже было такое сначала. Сейчас у меня такого "комплекса" нет

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.04.08 08:28. Post subject: Владислав пишет: Но..


Владислав пишет:

 quote:
Но если в арспознаном тексте ошибок не так много (терпимо) и можно его нормально читать, то исправлятьошибки в Ворде мне приятнее.. занятие не превращаеться в монотонное истезание... Одовременно читаешь и исправляешь... к скану я обращаюсь когда естьсомнения на счет фамилий и населенных пунктов.


+1

Benderod пишет:

 quote:
С точки экономии времени, лучше поставить в Файнридере в конец страницы номер следующей страницы, особенно полезно когда последнее слово разрывается и переходит на следующую страницу ("[500] за-"). Иначе в Ворде тебе надо будет двигать номер страницы к началу этого слова, ставить квадратные кавычки по бокам каждого номера, делать жирным текстом и придавать нужный цвет.


Гым. Жирным и цветом, если надо выделять (я обычно не - только в тех, которые Титмару) выделять придется в любом случае. А набивать его в ридере или в ворде - с тзр расходов времени разницы не вижу...

Benderod пишет:

 quote:
Сразу видно что тебе некуда спешить.


Мы куда-то торопимся?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.04.08 13:14. Post subject: Benderod пишет: Я ..


Benderod пишет:

 quote:
Я бегло читаю текст.
Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте.
Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара.
"к скану я обращаюсь когда есть сомнения на счет фамилий и населенных пунктов."
- поздравляю тебя, ты знаешь и латынь, и вообще латинские языки и греческий или у тебя они не встречались статьи.
"Но если в оригинале все 80% букв П, И,Н это две вертикальные черты"
- если другие буквы в слове "понятны" Файнридеру, то он не ставит чёртышки, а вставляет "п, и " или "н" сам, без обучения.
"Окошко для ошибок в файнридере очень маленькое... " - у меня тоже было такое сначала. Сейчас у меня такого "комплекса" нет



Я со многими вашими словами согласен, и спорить не буду что файнридер гораздо более нацелен именно на исправление ошибок... но факт есть факт... скучно... чисто, так сказать, человеческий фактор.
Окошко все-таки маленькое, надеюсь что вы правы и в будущем этот комплекс пройдет.
касательно латыни, топока мне ее встречалось мало, и конечно прихоидось смотреть в оригинал. но по сравнению с именами это было ничто.
Который я всегда держу рядом в формате pdf.


Но если ошибок чресчур много... и фанридер никак не хочет нормально распозновать текст (у меня было такое я говорил и в принципе понимаю фанридер, и читать то мне было текст очень тяжело)... может быть вообще лучше не исправлять ошибки в файнридере а изначально задать функцию РАСПОЗНОВАТЬ с ОБУЧЕНИЕМ... может быть это еще более сэкономит время?

Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 13:15. Post subject: Benderod пишет: Ben..


Benderod пишет:

 quote:
Benderod пишет:

quote:
Сразу видно что тебе некуда спешить.



Мы куда-то торопимся?



+1

Спасибо: 0 
Quote Reply
Replys - 53 , page: 1 2 3 4 All [new only]
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 6
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no