On-line: guests 0. In total there are: 0 [information..]
AuthorTopic



link post  Posted: 27.03.08 12:59. Post subject: Секреты распознавания.


Не легкая это дело – распознавать сканы, особенно, если они имеют дефекты (грязь, черные полосы, бледный текст, сжатость и т.д.)
Но не будем унывать. Можно и облегчить работу.

Нам нужно будет PhotoShop, начиная с версии 6.0. по 1х.0 (или другой полноценный графический редактор) и ABBYY FineReader 9.0.

Photoshop устранит те дефекты, которые присущи сканам.
(Ведь часто бывает, что человек, который сканирует книги не думает о человеке, который будет их распознавать. ИМХО!)
Файнридер 9.0 - быстро и хорошо распознает сканы и покажет орфографические ошибки и исправит их, что ускорит нашу работу.
И конечно (желательно) хороший комп с большой оперативной памятью - 1, а лучше 2 Гб.

Очень часто сканы сжаты, да к тому же и текст бывает бледный, что приводит к плохому качеству распознавания и большим орфографическим ошибкам даже в Файнридере 9.0, если распознавать как есть. Особенно если сканы «убитые».

1. Итак открываем первый скан в Фотошопе.
Чтоб убыстрить редактирование сканов в Фотошопе - создаем Скрипт (Action) – на панели выбираем меню «Window” -> «Action”.
При создании Скрипта (сначала создается папка, а в папке сам файл Скрипт (action) – при его создании он сразу входит в режим записи (record). Как только Скрипт в режиме записи выбираем в панели меню «Image» -> выбираем «Mode» -> «Grayscale» - оставляем «1».
Затем снова меню «Image» -> «Image Size». Тут выбирает разрешение (dpi) скана - ставим 500. Если убитый скан - 600.
В меню «File» - сохраняем (Save) скан и закрываем (Close) его.
Теперь останавливаем Скрипт - (stop).
Закрываем этот скан.
Теперь можно эти изменения распространить сразу на все сканы в рабочей папке.
Входим в меню «File» -> «Automate» -> «Batch».
В «Batch» выбираем наш Скрипт и папку со сканами и нажимаем на «ОК». - Фотошоп сам отредактирует все сканы в рабочей папке без вашего участия.
Если скан бледный или много грязи - уж тут лучше каждый скан отредактировать отдельно Бледность скана исправляется в меню «Image» -> «Adjustments» -> «Curves» или «Brightness/Contrast».
Если текст в скане достаточно крив из-за не лучшего сканирования, то надо его вернуть в первоначальный вид - меню «Edit» -> «Transform» -> «Rotate»
На редактирование уйдет меньше времени, чем потом исправлять многочисленные орфографические ошибки или вбивать самому текст в Файнридер 9.0.
Конечно, Файнридер 9.0. обещает, что он сам исправит последние вышеприведенные огрехи скана, но пускай он выполняет свою основную работу – распознавание скана. А Фотошоп лучше справится со своей работой.
Один минус - каждый файл может увеличиться в размере с 12 до 25 Мб. Но с современным компом это пустяк.

2. Теперь открываем отредактированные в Фотошопе сканы в Файнридере 9.0.
Даже такие большие сканы (500-600 dpi, размер - 25 Мб) Файнридер 9.0 откроет быстро и быстро распознает при соответствующем компе.

Чтобы Файнридер 9.0 в тексте, который набран дореволюционным способом, ставил знак переноса (повернутое «г») после не законченного слова, переходящего на другую строку, нужно поставить языки для распознавания (меню «Сервис» -> «Редактор языков»): «Русский и «Русский старый», а если есть и латинские буквы, например французские слова, то прибавить и «Французский» - «Французский, Русский, Русский старый».
Конечно, не всегда Файнридер поставит знак переноса после распознавания скана, но его можно скопировать и вставить там, где стоит тире «-».
Как только распознан скан, входим в окно редактирования текста - «Текст».
Сначала сознаем новый стиль для текста - выбираем меню «Сервис» -> «Редактор стилей» и создаем новый - ставим в параметрах шрифт «Time New Roman», размер шрифта – от 8 до 10 в зависимости от размера шрифта в скане. Это будет полезно, когда будете перекидывать текст из Офиса в HTML-редактор или сохранять текст как html-файл - меньше мусора.
Теперь выделяем весь текст на странице - выбираем вами созданный «стиль» и выбираем язык «Русский». И желательно выравнивание текста – в ширину.
Теперь в окне «Текст» можно исправлять орфографические ошибки, которые нашел Файнридер 9.0.
Как только вы готовы текст в документе Файнридера 9.0 перекинуть в Офис, то на панели окна «Текст» меняем «Точная копия» на «Форматированный текст» и перекидываем текст в Офис.

3. Для тех кто хочет помочь ускорить опубликование распознанной статьи (книги) на сайте, тому нужно установить, например, Microsoft Office 97. Скинутый из Файнридера текст сохраняете как html-файл. Данная версия Офиса отличается от последующих тем, что в html-файле нету того «мусора», которые появляется в большом количестве в последующих версиях Офиса.


Спасибо: 0 
ProfileQuote Reply
Replys - 53 , page: 1 2 3 4 All [new only]





link post  Posted: 08.04.08 13:17. Post subject: Benderod пишет: Сра..


Benderod пишет:

 quote:
Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте.
Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара.



теперь понятно почему на сайте Титмара, так много классных текстов... :)

Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 13:19. Post subject: Benderod пишет: Теп..


Benderod пишет:

 quote:
Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте.
Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара.

Теперьпонятно почему на сайте Титмара так много классных текстов :)

Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 13:33. Post subject: Halgar пишет: Мы ку..


Halgar пишет:

 quote:
Мы куда-то торопимся?



И очень сильно. А ну как помрем ?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.04.08 14:06. Post subject: Thietmar пишет: И о..


Thietmar пишет:

 quote:
И очень сильно. А ну как помрем ?


У меня такой вопрос вы не пробовали обращаться в какие-нибудь гос. организации.. Сейчас много грантов выходит... конечно трудно до них добраться... Может быть в РАН, или еще куда-нибудь.
Дело то святое. Неужели никто не может помочь...
К тому же это уже готовые проект с громадным научно-образовательным потенциалом...

У нас в области например на такую хер....ю деньги дают, аж противно. Причем дают не по блату. Пришли из центра деньги .. а освоить их комитет по образованию не может... вот и швыряет направо и налево.



Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 14:20. Post subject: Владислав пишет: У ..


Владислав пишет:

 quote:
У меня такой вопрос вы не пробовали обращаться в какие-нибудь гос. организации..



Это уже обсуждалось на форуме не единожды. Обращаться можно сколько угодно и к кому угодно. Будет много переписки - но текстов на сайте в итоге совершенно не прибавится.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.04.08 14:40. Post subject: Да, хорошо не буду т..


Да, хорошо не буду трогать эту тему к тому же на этой ветке. Просто скажу, повторю еще раз.. вы знаимаетесь хорошим делом, не побоюсь сказать благородным. Желаю успехов и удачи вашему сайту...
Сам тоже в меру моих студенческих сил буду всячески участвовать. Надо доказать людям что Интернет это не мусорка.


Вернусь к вопросу распознования... Если с файнридером все более или менее понятно.. точнее виден горизонт непонятного, что позволяет наметить пути усовершенствования... :)

То вот с фотошопом не все так гладко. Инструмент то на самом деле архисложный и архимощнейший... Какие есть практические способы для улучшения качества сканов? Может быть существуют какие-нибудь дополнительные фильтры и так далее? Механизм с автоматическим расширением файлов я удачно освоил. Но честно говоря прок от этого оказался не таким как я ожидал (хотя повторюсь опыта у меян мало)


Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 15:10. Post subject: Thietmar пишет: И о..


Thietmar пишет:

 quote:
И очень сильно. А ну как помрем ?



Думаю, тогда мы сможем пообщаться непосредственно с авторами :D

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 00:39. Post subject: Halgar пишет: Думаю..


Halgar пишет:

 quote:
Думаю, тогда мы сможем пообщаться непосредственно с авторами :D



Хочется все же сейчас.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 01:52. Post subject: Хотеть не вредно. Ск..


Хотеть не вредно. Сколько распознаю тексты, торопливость никогда - подчеркиваю красным - никогда к хорошему не приводила. А правка текста в файнридере есть нонсенс. Окно маленькое, текст мелкий из-за этого, глазы из орбит вылазят. Я обычно распознаю страницу, копирую в ворд и читаю. Обращение к файну происходит только на именах собственных, географических названиях и иностранных текстах. Номер страницы в ворде копируется с предыдущей (со всеми жирностями и цветностями) и меняется одна цифра. Иногда сверяется со страницами в сканах. Все.

Титмар, пока бабки платить за распознавание не начнем - нихера быстрее не будет. А не начнем пока меценаты не объявятся. А не объявятся они никогда - потому что мало кому это надо. Тестовая система образования - она источников не требует.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 03:09. Post subject: Strori пишет: А не ..


Strori пишет:

 quote:
А не начнем пока меценаты не объявятся.



Нефтяную вышку бы надобно..

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 07:31. Post subject: Обмельчал народ


Обмельчал народ. За идею уже не работают как стахановцы.
Ну появятся меценаты и что ? Strori будет быстрее редактировать распознанный текст и его оформлять ? Ни хрена! Для него: "тише едешь - дальше будет".

А слова "А правка текста в файнридере есть нонсенс." - это комплекс, который о временем исчезает у тех, кто хочет меньше прыгать с скана в Ворд и обратно, да вообще быстрее исправить орфо. ошибки.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 08:25. Post subject: Benderod пишет: Обм..


Benderod пишет:

 quote:
Обмельчал народ. За идею уже не работают как стахановцы.


Стаханов работал далеко не за идею, если вы не в курсе. Бабло рубил нехилое. А гражданам мозг засрали за его идейность - до сих пор не проходит. Даю справку: все, участвующие в работе сайта - работают за идею. В отличие от Стаханова.

Benderod пишет:

 quote:
Ну появятся меценаты и что ?


Если будет возможность платить деньги за сканы - можно будет за это и спрашивать. А пока вы получаете к конверту то, что получаете. Сделанное хер пойми как и с косяками. Потому что бесплатно.

Benderod пишет:

 quote:
Strori будет быстрее редактировать распознанный текст и его оформлять ? Ни хрена! Для него: "тише едешь - дальше будет".


В среднем Strori распознает и оформляет 20 отсканированных страниц в день (ситуации когда лень или есть другие дела, понятно, не рассматриваются). После чего конвертит их и выкладывает на сайт. При этом успевает еще и другими вопросами по сайту заниматься. Вы это к какой категории относите? Тихо ехать или дальше быть?

Benderod пишет:

 quote:
А слова "А правка текста в файнридере есть нонсенс." - это комплекс, который о временем исчезает у тех, кто хочет меньше прыгать с скана в Ворд и обратно, да вообще быстрее исправить орфо. ошибки.


Чтобы править "орфо. ошибки" мне файнридер не нужен. Головы хватает. Вы где нашли про "орфо. ошибки" в моем предыдущем посте? Или, как сейчас у многих принято, в написанном видите не то, что написано, а то, что хочется видеть? Что касается правки текста в файнридере повторю еще раз - это нонсенс. Думаю со мной согласятся многие распознаватели этого сайта. Комплекс - как раз в файнридере работать, ибо это сильно замедляет вычитку текста.

PS: И хамить не надо, гражданин Benderod.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 15:10. Post subject: Спокойнее, граждане...


Спокойнее, граждане.. Без Strori сайта в его настоящем дизайне просто бы не существовало.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 16:36. Post subject: Strori пишет: Что к..


Strori пишет:

 quote:
Что касается правки текста в файнридере повторю еще раз - это нонсенс. Думаю со мной согласятся многие распознаватели этого сайта. Комплекс - как раз в файнридере работать, ибо это сильно замедляет вычитку текста.



Я от своих предыдуших слов не октазываюсь , про Ворд, но с тем что файнридер быстрее и функциональнее распознает ошибки тоже от части соглашусь. Это например касаеться текстов где количество ошибок минимально... Недавно столкнулся с одним таким. Алфавит современный, шрифт компьютерный, сканы средней паршивости.. Интерес сам текст для меня не представлял.... и вот в этом конкретном случае, действительно шелкать на ЕНТЕР мне было проще... распозновал я не для сайта а по работе своей.

страниц было 70, сделал все за 1 - 1,5 часа.

Спасибо: 0 
Quote Reply



link post  Posted: 09.04.08 19:22. Post subject: 1. Увеличивать DPI с..


1. Увеличивать DPI скана по-моему бесполезно. Очертания букв от этого четче не становятся. А вот распознавание с обучением помогает.
2. Про маленькое окно не понял. Браузер сканов располагаем внизу, окна "Изображение" и "Текст" друг под другом и увеличиваем масштаб до желаемого. Или монитор совсем маленький? Вычитываю текст именно в Файнридере, т.к. перед глазами и текст и скан. Распознав весь текст, экспортирую его в Ворд. По привычке в Ворде удаляю все переносы и задаю единый размер и тип шрифта. Дальше проверяю орфографию в Опеноффисе. Во-первых и в главных потому что работаю в линуксе, а во вторых ОО имеет возможность создавать, подключать и редактировать собственные словари, что очень полезно для русских документов, приведенных к современному написанию (слово "велеможнейшаго" обычный спеллчекер посчитает ошибкой). Отловить все ошибки во время распознавания у меня никогда не получалось. Ничего на этом этапе не выделяю, но расставляю скобки у номеров страниц. Дальше экспортирую в хтмл и загружаю в текстовый редактор. Мусорные теги в редакторе удаляются поиском и заменой, ей же добавляю жирность и цвет номерам страниц (тут конечно желательно квадратные скобки использовать только для этих номеров).

Спасибо: 0 
ProfileQuote Reply
Replys - 53 , page: 1 2 3 4 All [new only]
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 10
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no