Forum » Вопросы по сайту » Секреты распознавания.
	перенос

Author

Topic

Thietmar

Posted: 27.03.08 12:59. Post subject: Секреты распознавания.

Не легкая это дело – распознавать сканы, особенно, если они имеют дефекты (грязь, черные полосы, бледный текст, сжатость и т.д.)
Но не будем унывать. Можно и облегчить работу.

Нам нужно будет PhotoShop, начиная с версии 6.0. по 1х.0 (или другой полноценный графический редактор) и ABBYY FineReader 9.0.

Photoshop устранит те дефекты, которые присущи сканам.
(Ведь часто бывает, что человек, который сканирует книги не думает о человеке, который будет их распознавать. ИМХО!)
Файнридер 9.0 - быстро и хорошо распознает сканы и покажет орфографические ошибки и исправит их, что ускорит нашу работу.
И конечно (желательно) хороший комп с большой оперативной памятью - 1, а лучше 2 Гб.

Очень часто сканы сжаты, да к тому же и текст бывает бледный, что приводит к плохому качеству распознавания и большим орфографическим ошибкам даже в Файнридере 9.0, если распознавать как есть. Особенно если сканы «убитые».

1. Итак открываем первый скан в Фотошопе.
Чтоб убыстрить редактирование сканов в Фотошопе - создаем Скрипт (Action) – на панели выбираем меню «Window” -> «Action”.
При создании Скрипта (сначала создается папка, а в папке сам файл Скрипт (action) – при его создании он сразу входит в режим записи (record). Как только Скрипт в режиме записи выбираем в панели меню «Image» -> выбираем «Mode» -> «Grayscale» - оставляем «1».
Затем снова меню «Image» -> «Image Size». Тут выбирает разрешение (dpi) скана - ставим 500. Если убитый скан - 600.
В меню «File» - сохраняем (Save) скан и закрываем (Close) его.
Теперь останавливаем Скрипт - (stop).
Закрываем этот скан.
Теперь можно эти изменения распространить сразу на все сканы в рабочей папке.
Входим в меню «File» -> «Automate» -> «Batch».
В «Batch» выбираем наш Скрипт и папку со сканами и нажимаем на «ОК». - Фотошоп сам отредактирует все сканы в рабочей папке без вашего участия.
Если скан бледный или много грязи - уж тут лучше каждый скан отредактировать отдельно Бледность скана исправляется в меню «Image» -> «Adjustments» -> «Curves» или «Brightness/Contrast».
Если текст в скане достаточно крив из-за не лучшего сканирования, то надо его вернуть в первоначальный вид - меню «Edit» -> «Transform» -> «Rotate»
На редактирование уйдет меньше времени, чем потом исправлять многочисленные орфографические ошибки или вбивать самому текст в Файнридер 9.0.
Конечно, Файнридер 9.0. обещает, что он сам исправит последние вышеприведенные огрехи скана, но пускай он выполняет свою основную работу – распознавание скана. А Фотошоп лучше справится со своей работой.
Один минус - каждый файл может увеличиться в размере с 12 до 25 Мб. Но с современным компом это пустяк.

2. Теперь открываем отредактированные в Фотошопе сканы в Файнридере 9.0.
Даже такие большие сканы (500-600 dpi, размер - 25 Мб) Файнридер 9.0 откроет быстро и быстро распознает при соответствующем компе.

Чтобы Файнридер 9.0 в тексте, который набран дореволюционным способом, ставил знак переноса (повернутое «г») после не законченного слова, переходящего на другую строку, нужно поставить языки для распознавания (меню «Сервис» -> «Редактор языков»): «Русский и «Русский старый», а если есть и латинские буквы, например французские слова, то прибавить и «Французский» - «Французский, Русский, Русский старый».
Конечно, не всегда Файнридер поставит знак переноса после распознавания скана, но его можно скопировать и вставить там, где стоит тире «-».
Как только распознан скан, входим в окно редактирования текста - «Текст».
Сначала сознаем новый стиль для текста - выбираем меню «Сервис» -> «Редактор стилей» и создаем новый - ставим в параметрах шрифт «Time New Roman», размер шрифта – от 8 до 10 в зависимости от размера шрифта в скане. Это будет полезно, когда будете перекидывать текст из Офиса в HTML-редактор или сохранять текст как html-файл - меньше мусора.
Теперь выделяем весь текст на странице - выбираем вами созданный «стиль» и выбираем язык «Русский». И желательно выравнивание текста – в ширину.
Теперь в окне «Текст» можно исправлять орфографические ошибки, которые нашел Файнридер 9.0.
Как только вы готовы текст в документе Файнридера 9.0 перекинуть в Офис, то на панели окна «Текст» меняем «Точная копия» на «Форматированный текст» и перекидываем текст в Офис.

3. Для тех кто хочет помочь ускорить опубликование распознанной статьи (книги) на сайте, тому нужно установить, например, Microsoft Office 97. Скинутый из Файнридера текст сохраняете как html-файл. Данная версия Офиса отличается от последующих тем, что в html-файле нету того «мусора», которые появляется в большом количестве в последующих версиях Офиса.

Replys - 53 , page: 1 2 3 4 All [new only]

Strori

Posted: 28.03.08 02:57. Post subject: По-моему вычивать те..

По-моему вычивать текст в Ворде гораздо приятнее чем в файнридере.

По п. 3. Мусор в коде можно удалить, есть софт соответствующий. Вообще думаю, распознавателю не надо заморачиваться с html вариантами. Его задача выдать чистый текст, пригодный к изготовлению сетевой версии. Тут внимание надо акцентировать на самых простейших функциях ворда. НЕ НАДО химичить со спецвозможностями типа комментариев и ссылок на них. Только текст.

Владислав

Posted: 28.03.08 17:13. Post subject: дейсвтительно я согл..

дейсвтительно я согласен что вычитывать текст в Ворде приятнее.
Исправлять ошибки в Ворде мне тоже сподручнее. Особенно нравиться функция замены одного слова другим (в фанридере эта функция наверно тоже есть). То есть взял "вЪ" ,"съ" и "къ" и заменил на в,с и к.

а еще такой вотвопрос, зависит ли количество ошибок от того что текст отсканирован был криво?

Strori

Posted: 29.03.08 04:52. Post subject: Скорее от качества с..

Скорее от качества самого текста (источника).

Владислав

Posted: 31.03.08 15:13. Post subject: Кстати в файнридере ..

Кстати в файнридере я с успехом применил функцию "распознать с обучением" для дореволюционных источников, успех конечно относительный. У меня файнридер седьмой и словаря "Русский старый" на нем не установлено.
Так вот я научил файнридер самостоятельно заменять "i" на "и". И "еть", так кажеться наываеться эта буква на "е". ошибок стало гораздо меньше. как писал выше, твердый (или мягкий знак,как иногда ставил мне файнридер) после предлогов я легко заменил в ворде.

Единственная пробелма с которой я ни как не могу справиться это буквы "Н,П,И". Какое бы не было качество сканов, какие бы ухищрения я бы не применял. Если в изночальном документе горизонтальной черточки нет, то и файнридер ставит то что ему вздумаеться. Обучение тут непомогает, и по сути бессмысленно и только увеличивает количество ошибок.

Владислав

Posted: 02.04.08 16:46. Post subject: Интересен такой вопр..

Интересен такой вопрос какие приемущества дает файнридер 9 по сравнению в седьмой версией?

Benderod

Posted: 07.04.08 07:25. Post subject: Вах-Вах

Господа. Автор статьи - я. Начнем с исправлением ошибок: Файнридер 9.0 в отличии от Ворда 2007 исправляет орфографические ошибки в словах, даже если их (ошибок) две. Попробуйте, чтоб Ворд сам исправил орфо. ошибки, если в слове их две, - только если одна.

Насчет "вЪ" ,"съ" и "къ" , "i" на "и". "еть" на"е" - всё это легко можно исправить в Файнридере 9.0.

Ну как же проще (и быстрее) исправлять ошибки в Ворде, если вам придется переключаться с Ворда к скану и обратно, чтоб проверить как правильно пишется слово, а если оно сложное или латинское ? Всё время запоминать? Ну как дети малые.

Насчёт мусора HTML. - Я делаю сетевые версии статей в НТМЛ для Титмара.
Файнридер 9 по сравнению в седьмой версией?
В отношении редактирования текста и его офро. ошибок - как небо и земля.

Benderod

Posted: 07.04.08 07:39. Post subject: Файнридер 9.0.

Я работал и в Файнридере 7.0. и 8.0. Я считаю (по опыту), что Файнридер 9.0. получше распознает скан.

Benderod

Posted: 07.04.08 08:36. Post subject: К вышесказанному пос..

К вышесказанному посту хочу ещё посоветовать: ставьте нумерацию страниц ([555]) в самом документе Файнридера. Это вам уменьшит время на оформление статьи (книги) в Ворде. Ведь часто бывает, что не сразу находишь конец страницы в Ворде.

Всё что я написал (3 поста плюс этот) - ТОЛЬКО для тех, кто хочет быстрее отправить Админу готовую БЕЗ ОШИБОК распознаную статью (книгу).

Halgar

Posted: 07.04.08 15:05. Post subject: 9-й ридер, действите..

9-й ридер, действительно, лучше распознает... но все остальное делает хуже. Та же расстановка страниц - почему нельзя обвести номер на скане зеленой рамочкой и уже в ворде его оформить? Потому, что 9-й ридер его понимает как колонтитул и в текст не вставляет...

Владислав

Posted: 07.04.08 15:33. Post subject: Владислав пишет: Ну..

Владислав пишет:

quote:

Ну как же проще (и быстрее) исправлять ошибки в Ворде, если вам придется переключаться с Ворда к скану и обратно, чтоб проверить как правильно пишется слово, а если оно сложное или латинское ? Всё время запоминать? Ну как дети малые.

Я говорил что не проще , а приятнее , а отсюда и сподручнее. На счет исправления нескольких ошибок то я это тоже заметил... Но если в арспознаном тексте ошибок не так много (терпимо) и можно его нормально читать, то исправлятьошибки в Ворде мне приятнее.. занятие не превращаеться в монотонное истезание... Одовременно читаешь и исправляешь... к скану я обращаюсь когда естьсомнения на счет фамилий и населенных пунктов.
Окошко для ошибок в файнридере очень маленькое...

С другой стороны если скан убитый. У меня был такой случай.. Все пробовал, все что писали тут пробовал, делал разные форматы, редактировал в фотошопе, но ничего толкого так и не получилось (конечно, признаю, наеврно из-за моей неопытности). Но если в оригинале все 80% букв П, И,Н это две вертикальные черты, то обучать файнридер не имеет смысла.

В итоге пришлось тупо набивать текст от руки... Благо тут на помощь пришла техника печатать в слепую...

Benderod

Posted: 08.04.08 08:01. Post subject: Halgar, а у мя встав..

Halgar, а у мя вставляет. Только щас проверил. Но и это не нужно. С точки экономии времени, лучше поставить в Файнридере в конец страницы номер следующей страницы, особенно полезно когда последнее слово разрывается и переходит на следующую страницу ("[500] за-"). Иначе в Ворде тебе надо будет двигать номер страницы к началу этого слова, ставить квадратные кавычки по бокам каждого номера, делать жирным текстом и придавать нужный цвет.

Benderod

Posted: 08.04.08 08:12. Post subject: Владислав, у меня не..

Владислав, у меня нет времени "Одовременно читаешь и исправляешь..." Я бегло читаю текст.
Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте.
Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара.
"к скану я обращаюсь когда есть сомнения на счет фамилий и населенных пунктов."
- поздравляю тебя, ты знаешь и латынь, и вообще латинские языки и греческий или у тебя они не встречались статьи.
"Но если в оригинале все 80% букв П, И,Н это две вертикальные черты"
- если другие буквы в слове "понятны" Файнридеру, то он не ставит чёртышки, а вставляет "п, и " или "н" сам, без обучения.
"Окошко для ошибок в файнридере очень маленькое... " - у меня тоже было такое сначала. Сейчас у меня такого "комплекса" нет

Halgar

Posted: 08.04.08 08:28. Post subject: Владислав пишет: Но..

Владислав пишет:

quote:

Но если в арспознаном тексте ошибок не так много (терпимо) и можно его нормально читать, то исправлятьошибки в Ворде мне приятнее.. занятие не превращаеться в монотонное истезание... Одовременно читаешь и исправляешь... к скану я обращаюсь когда естьсомнения на счет фамилий и населенных пунктов.

+1

Benderod пишет:

quote:

С точки экономии времени, лучше поставить в Файнридере в конец страницы номер следующей страницы, особенно полезно когда последнее слово разрывается и переходит на следующую страницу ("[500] за-"). Иначе в Ворде тебе надо будет двигать номер страницы к началу этого слова, ставить квадратные кавычки по бокам каждого номера, делать жирным текстом и придавать нужный цвет.

Гым. Жирным и цветом, если надо выделять (я обычно не - только в тех, которые Титмару) выделять придется в любом случае. А набивать его в ридере или в ворде - с тзр расходов времени разницы не вижу...

Benderod пишет:

quote:

Сразу видно что тебе некуда спешить.

Мы куда-то торопимся?

Владислав

Posted: 08.04.08 13:14. Post subject: Benderod пишет: Я ..

Benderod пишет:

quote:

Я бегло читаю текст.
Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте.
Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара.
"к скану я обращаюсь когда есть сомнения на счет фамилий и населенных пунктов."
- поздравляю тебя, ты знаешь и латынь, и вообще латинские языки и греческий или у тебя они не встречались статьи.
"Но если в оригинале все 80% букв П, И,Н это две вертикальные черты"
- если другие буквы в слове "понятны" Файнридеру, то он не ставит чёртышки, а вставляет "п, и " или "н" сам, без обучения.
"Окошко для ошибок в файнридере очень маленькое... " - у меня тоже было такое сначала. Сейчас у меня такого "комплекса" нет

Я со многими вашими словами согласен, и спорить не буду что файнридер гораздо более нацелен именно на исправление ошибок... но факт есть факт... скучно... чисто, так сказать, человеческий фактор.
Окошко все-таки маленькое, надеюсь что вы правы и в будущем этот комплекс пройдет.
касательно латыни, топока мне ее встречалось мало, и конечно прихоидось смотреть в оригинал. но по сравнению с именами это было ничто.
Который я всегда держу рядом в формате pdf.

Но если ошибок чресчур много... и фанридер никак не хочет нормально распозновать текст (у меня было такое я говорил и в принципе понимаю фанридер, и читать то мне было текст очень тяжело)... может быть вообще лучше не исправлять ошибки в файнридере а изначально задать функцию РАСПОЗНОВАТЬ с ОБУЧЕНИЕМ... может быть это еще более сэкономит время?

Владислав

Posted: 08.04.08 13:15. Post subject: Benderod пишет: Ben..

Benderod пишет:

quote:

Benderod пишет:

quote:
Сразу видно что тебе некуда спешить.

Мы куда-то торопимся?

Replys - 53 , page: 1 2 3 4 All [new only]

Reply:

1 2 3 4 5 6 7 8 9

показывать это сообщение только модераторам
не делать ссылки активными

Username, Password:

Forum » Вопросы по сайту » Секреты распознавания.

Тему читают:

- user online

- user offline

All times are GMT 3 Hours. Hits today: 6
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no

Создай свой форум на сервисе Borda.ru
Текстовая версия