On-line: guests 0. In total there are: 0 [information..]
AuthorTopic



link post  Posted: 27.03.08 12:59. Post subject: Секреты распознавания.


Не легкая это дело – распознавать сканы, особенно, если они имеют дефекты (грязь, черные полосы, бледный текст, сжатость и т.д.)
Но не будем унывать. Можно и облегчить работу.

Нам нужно будет PhotoShop, начиная с версии 6.0. по 1х.0 (или другой полноценный графический редактор) и ABBYY FineReader 9.0.

Photoshop устранит те дефекты, которые присущи сканам.
(Ведь часто бывает, что человек, который сканирует книги не думает о человеке, который будет их распознавать. ИМХО!)
Файнридер 9.0 - быстро и хорошо распознает сканы и покажет орфографические ошибки и исправит их, что ускорит нашу работу.
И конечно (желательно) хороший комп с большой оперативной памятью - 1, а лучше 2 Гб.

Очень часто сканы сжаты, да к тому же и текст бывает бледный, что приводит к плохому качеству распознавания и большим орфографическим ошибкам даже в Файнридере 9.0, если распознавать как есть. Особенно если сканы «убитые».

1. Итак открываем первый скан в Фотошопе.
Чтоб убыстрить редактирование сканов в Фотошопе - создаем Скрипт (Action) – на панели выбираем меню «Window” -> «Action”.
При создании Скрипта (сначала создается папка, а в папке сам файл Скрипт (action) – при его создании он сразу входит в режим записи (record). Как только Скрипт в режиме записи выбираем в панели меню «Image» -> выбираем «Mode» -> «Grayscale» - оставляем «1».
Затем снова меню «Image» -> «Image Size». Тут выбирает разрешение (dpi) скана - ставим 500. Если убитый скан - 600.
В меню «File» - сохраняем (Save) скан и закрываем (Close) его.
Теперь останавливаем Скрипт - (stop).
Закрываем этот скан.
Теперь можно эти изменения распространить сразу на все сканы в рабочей папке.
Входим в меню «File» -> «Automate» -> «Batch».
В «Batch» выбираем наш Скрипт и папку со сканами и нажимаем на «ОК». - Фотошоп сам отредактирует все сканы в рабочей папке без вашего участия.
Если скан бледный или много грязи - уж тут лучше каждый скан отредактировать отдельно Бледность скана исправляется в меню «Image» -> «Adjustments» -> «Curves» или «Brightness/Contrast».
Если текст в скане достаточно крив из-за не лучшего сканирования, то надо его вернуть в первоначальный вид - меню «Edit» -> «Transform» -> «Rotate»
На редактирование уйдет меньше времени, чем потом исправлять многочисленные орфографические ошибки или вбивать самому текст в Файнридер 9.0.
Конечно, Файнридер 9.0. обещает, что он сам исправит последние вышеприведенные огрехи скана, но пускай он выполняет свою основную работу – распознавание скана. А Фотошоп лучше справится со своей работой.
Один минус - каждый файл может увеличиться в размере с 12 до 25 Мб. Но с современным компом это пустяк.

2. Теперь открываем отредактированные в Фотошопе сканы в Файнридере 9.0.
Даже такие большие сканы (500-600 dpi, размер - 25 Мб) Файнридер 9.0 откроет быстро и быстро распознает при соответствующем компе.

Чтобы Файнридер 9.0 в тексте, который набран дореволюционным способом, ставил знак переноса (повернутое «г») после не законченного слова, переходящего на другую строку, нужно поставить языки для распознавания (меню «Сервис» -> «Редактор языков»): «Русский и «Русский старый», а если есть и латинские буквы, например французские слова, то прибавить и «Французский» - «Французский, Русский, Русский старый».
Конечно, не всегда Файнридер поставит знак переноса после распознавания скана, но его можно скопировать и вставить там, где стоит тире «-».
Как только распознан скан, входим в окно редактирования текста - «Текст».
Сначала сознаем новый стиль для текста - выбираем меню «Сервис» -> «Редактор стилей» и создаем новый - ставим в параметрах шрифт «Time New Roman», размер шрифта – от 8 до 10 в зависимости от размера шрифта в скане. Это будет полезно, когда будете перекидывать текст из Офиса в HTML-редактор или сохранять текст как html-файл - меньше мусора.
Теперь выделяем весь текст на странице - выбираем вами созданный «стиль» и выбираем язык «Русский». И желательно выравнивание текста – в ширину.
Теперь в окне «Текст» можно исправлять орфографические ошибки, которые нашел Файнридер 9.0.
Как только вы готовы текст в документе Файнридера 9.0 перекинуть в Офис, то на панели окна «Текст» меняем «Точная копия» на «Форматированный текст» и перекидываем текст в Офис.

3. Для тех кто хочет помочь ускорить опубликование распознанной статьи (книги) на сайте, тому нужно установить, например, Microsoft Office 97. Скинутый из Файнридера текст сохраняете как html-файл. Данная версия Офиса отличается от последующих тем, что в html-файле нету того «мусора», которые появляется в большом количестве в последующих версиях Офиса.


Спасибо: 0 
ProfileQuote Reply
Replys - 53 , page: 1 2 3 4 All [new only]





link post  Posted: 28.03.08 02:57. Post subject: По-моему вычивать те..


По-моему вычивать текст в Ворде гораздо приятнее чем в файнридере.

По п. 3. Мусор в коде можно удалить, есть софт соответствующий. Вообще думаю, распознавателю не надо заморачиваться с html вариантами. Его задача выдать чистый текст, пригодный к изготовлению сетевой версии. Тут внимание надо акцентировать на самых простейших функциях ворда. НЕ НАДО химичить со спецвозможностями типа комментариев и ссылок на них. Только текст.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 28.03.08 17:13. Post subject: дейсвтительно я согл..


дейсвтительно я согласен что вычитывать текст в Ворде приятнее.
Исправлять ошибки в Ворде мне тоже сподручнее. Особенно нравиться функция замены одного слова другим (в фанридере эта функция наверно тоже есть). То есть взял "вЪ" ,"съ" и "къ" и заменил на в,с и к.

а еще такой вотвопрос, зависит ли количество ошибок от того что текст отсканирован был криво?

Спасибо: 0 
Quote Reply



link post  Posted: 29.03.08 04:52. Post subject: Скорее от качества с..


Скорее от качества самого текста (источника).

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 31.03.08 15:13. Post subject: Кстати в файнридере ..


Кстати в файнридере я с успехом применил функцию "распознать с обучением" для дореволюционных источников, успех конечно относительный. У меня файнридер седьмой и словаря "Русский старый" на нем не установлено.
Так вот я научил файнридер самостоятельно заменять "i" на "и". И "еть", так кажеться наываеться эта буква на "е". ошибок стало гораздо меньше. как писал выше, твердый (или мягкий знак,как иногда ставил мне файнридер) после предлогов я легко заменил в ворде.

Единственная пробелма с которой я ни как не могу справиться это буквы "Н,П,И". Какое бы не было качество сканов, какие бы ухищрения я бы не применял. Если в изночальном документе горизонтальной черточки нет, то и файнридер ставит то что ему вздумаеться. Обучение тут непомогает, и по сути бессмысленно и только увеличивает количество ошибок.

Спасибо: 0 
Quote Reply



link post  Posted: 02.04.08 16:46. Post subject: Интересен такой вопр..


Интересен такой вопрос какие приемущества дает файнридер 9 по сравнению в седьмой версией?



Спасибо: 0 
Quote Reply



link post  Posted: 07.04.08 07:25. Post subject: Вах-Вах


Господа. Автор статьи - я. Начнем с исправлением ошибок: Файнридер 9.0 в отличии от Ворда 2007 исправляет орфографические ошибки в словах, даже если их (ошибок) две. Попробуйте, чтоб Ворд сам исправил орфо. ошибки, если в слове их две, - только если одна.

Насчет "вЪ" ,"съ" и "къ" , "i" на "и". "еть" на"е" - всё это легко можно исправить в Файнридере 9.0.

Ну как же проще (и быстрее) исправлять ошибки в Ворде, если вам придется переключаться с Ворда к скану и обратно, чтоб проверить как правильно пишется слово, а если оно сложное или латинское ? Всё время запоминать? Ну как дети малые.

Насчёт мусора HTML. - Я делаю сетевые версии статей в НТМЛ для Титмара.
Файнридер 9 по сравнению в седьмой версией?
В отношении редактирования текста и его офро. ошибок - как небо и земля.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 07.04.08 07:39. Post subject: Файнридер 9.0.


Я работал и в Файнридере 7.0. и 8.0. Я считаю (по опыту), что Файнридер 9.0. получше распознает скан.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 07.04.08 08:36. Post subject: К вышесказанному пос..


К вышесказанному посту хочу ещё посоветовать: ставьте нумерацию страниц ([555]) в самом документе Файнридера. Это вам уменьшит время на оформление статьи (книги) в Ворде. Ведь часто бывает, что не сразу находишь конец страницы в Ворде.

Всё что я написал (3 поста плюс этот) - ТОЛЬКО для тех, кто хочет быстрее отправить Админу готовую БЕЗ ОШИБОК распознаную статью (книгу).

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 07.04.08 15:05. Post subject: 9-й ридер, действите..


9-й ридер, действительно, лучше распознает... но все остальное делает хуже. Та же расстановка страниц - почему нельзя обвести номер на скане зеленой рамочкой и уже в ворде его оформить? Потому, что 9-й ридер его понимает как колонтитул и в текст не вставляет...

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 07.04.08 15:33. Post subject: Владислав пишет: Ну..


Владислав пишет:

 quote:
Ну как же проще (и быстрее) исправлять ошибки в Ворде, если вам придется переключаться с Ворда к скану и обратно, чтоб проверить как правильно пишется слово, а если оно сложное или латинское ? Всё время запоминать? Ну как дети малые.

Я говорил что не проще , а приятнее , а отсюда и сподручнее. На счет исправления нескольких ошибок то я это тоже заметил... Но если в арспознаном тексте ошибок не так много (терпимо) и можно его нормально читать, то исправлятьошибки в Ворде мне приятнее.. занятие не превращаеться в монотонное истезание... Одовременно читаешь и исправляешь... к скану я обращаюсь когда естьсомнения на счет фамилий и населенных пунктов.
Окошко для ошибок в файнридере очень маленькое...

С другой стороны если скан убитый. У меня был такой случай.. Все пробовал, все что писали тут пробовал, делал разные форматы, редактировал в фотошопе, но ничего толкого так и не получилось (конечно, признаю, наеврно из-за моей неопытности). Но если в оригинале все 80% букв П, И,Н это две вертикальные черты, то обучать файнридер не имеет смысла.

В итоге пришлось тупо набивать текст от руки... Благо тут на помощь пришла техника печатать в слепую...


Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 08:01. Post subject: Halgar, а у мя встав..


Halgar, а у мя вставляет. Только щас проверил. Но и это не нужно. С точки экономии времени, лучше поставить в Файнридере в конец страницы номер следующей страницы, особенно полезно когда последнее слово разрывается и переходит на следующую страницу ("[500] за-"). Иначе в Ворде тебе надо будет двигать номер страницы к началу этого слова, ставить квадратные кавычки по бокам каждого номера, делать жирным текстом и придавать нужный цвет.


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.04.08 08:12. Post subject: Владислав, у меня не..


Владислав, у меня нет времени "Одовременно читаешь и исправляешь..." Я бегло читаю текст.
Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте.
Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара.
"к скану я обращаюсь когда есть сомнения на счет фамилий и населенных пунктов."
- поздравляю тебя, ты знаешь и латынь, и вообще латинские языки и греческий или у тебя они не встречались статьи.
"Но если в оригинале все 80% букв П, И,Н это две вертикальные черты"
- если другие буквы в слове "понятны" Файнридеру, то он не ставит чёртышки, а вставляет "п, и " или "н" сам, без обучения.
"Окошко для ошибок в файнридере очень маленькое... " - у меня тоже было такое сначала. Сейчас у меня такого "комплекса" нет

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.04.08 08:28. Post subject: Владислав пишет: Но..


Владислав пишет:

 quote:
Но если в арспознаном тексте ошибок не так много (терпимо) и можно его нормально читать, то исправлятьошибки в Ворде мне приятнее.. занятие не превращаеться в монотонное истезание... Одовременно читаешь и исправляешь... к скану я обращаюсь когда естьсомнения на счет фамилий и населенных пунктов.


+1

Benderod пишет:

 quote:
С точки экономии времени, лучше поставить в Файнридере в конец страницы номер следующей страницы, особенно полезно когда последнее слово разрывается и переходит на следующую страницу ("[500] за-"). Иначе в Ворде тебе надо будет двигать номер страницы к началу этого слова, ставить квадратные кавычки по бокам каждого номера, делать жирным текстом и придавать нужный цвет.


Гым. Жирным и цветом, если надо выделять (я обычно не - только в тех, которые Титмару) выделять придется в любом случае. А набивать его в ридере или в ворде - с тзр расходов времени разницы не вижу...

Benderod пишет:

 quote:
Сразу видно что тебе некуда спешить.


Мы куда-то торопимся?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.04.08 13:14. Post subject: Benderod пишет: Я ..


Benderod пишет:

 quote:
Я бегло читаю текст.
Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте.
Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара.
"к скану я обращаюсь когда есть сомнения на счет фамилий и населенных пунктов."
- поздравляю тебя, ты знаешь и латынь, и вообще латинские языки и греческий или у тебя они не встречались статьи.
"Но если в оригинале все 80% букв П, И,Н это две вертикальные черты"
- если другие буквы в слове "понятны" Файнридеру, то он не ставит чёртышки, а вставляет "п, и " или "н" сам, без обучения.
"Окошко для ошибок в файнридере очень маленькое... " - у меня тоже было такое сначала. Сейчас у меня такого "комплекса" нет



Я со многими вашими словами согласен, и спорить не буду что файнридер гораздо более нацелен именно на исправление ошибок... но факт есть факт... скучно... чисто, так сказать, человеческий фактор.
Окошко все-таки маленькое, надеюсь что вы правы и в будущем этот комплекс пройдет.
касательно латыни, топока мне ее встречалось мало, и конечно прихоидось смотреть в оригинал. но по сравнению с именами это было ничто.
Который я всегда держу рядом в формате pdf.


Но если ошибок чресчур много... и фанридер никак не хочет нормально распозновать текст (у меня было такое я говорил и в принципе понимаю фанридер, и читать то мне было текст очень тяжело)... может быть вообще лучше не исправлять ошибки в файнридере а изначально задать функцию РАСПОЗНОВАТЬ с ОБУЧЕНИЕМ... может быть это еще более сэкономит время?

Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 13:15. Post subject: Benderod пишет: Ben..


Benderod пишет:

 quote:
Benderod пишет:

quote:
Сразу видно что тебе некуда спешить.



Мы куда-то торопимся?



+1

Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 13:17. Post subject: Benderod пишет: Сра..


Benderod пишет:

 quote:
Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте.
Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара.



теперь понятно почему на сайте Титмара, так много классных текстов... :)

Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 13:19. Post subject: Benderod пишет: Теп..


Benderod пишет:

 quote:
Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте.
Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара.

Теперьпонятно почему на сайте Титмара так много классных текстов :)

Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 13:33. Post subject: Halgar пишет: Мы ку..


Halgar пишет:

 quote:
Мы куда-то торопимся?



И очень сильно. А ну как помрем ?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.04.08 14:06. Post subject: Thietmar пишет: И о..


Thietmar пишет:

 quote:
И очень сильно. А ну как помрем ?


У меня такой вопрос вы не пробовали обращаться в какие-нибудь гос. организации.. Сейчас много грантов выходит... конечно трудно до них добраться... Может быть в РАН, или еще куда-нибудь.
Дело то святое. Неужели никто не может помочь...
К тому же это уже готовые проект с громадным научно-образовательным потенциалом...

У нас в области например на такую хер....ю деньги дают, аж противно. Причем дают не по блату. Пришли из центра деньги .. а освоить их комитет по образованию не может... вот и швыряет направо и налево.



Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 14:20. Post subject: Владислав пишет: У ..


Владислав пишет:

 quote:
У меня такой вопрос вы не пробовали обращаться в какие-нибудь гос. организации..



Это уже обсуждалось на форуме не единожды. Обращаться можно сколько угодно и к кому угодно. Будет много переписки - но текстов на сайте в итоге совершенно не прибавится.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.04.08 14:40. Post subject: Да, хорошо не буду т..


Да, хорошо не буду трогать эту тему к тому же на этой ветке. Просто скажу, повторю еще раз.. вы знаимаетесь хорошим делом, не побоюсь сказать благородным. Желаю успехов и удачи вашему сайту...
Сам тоже в меру моих студенческих сил буду всячески участвовать. Надо доказать людям что Интернет это не мусорка.


Вернусь к вопросу распознования... Если с файнридером все более или менее понятно.. точнее виден горизонт непонятного, что позволяет наметить пути усовершенствования... :)

То вот с фотошопом не все так гладко. Инструмент то на самом деле архисложный и архимощнейший... Какие есть практические способы для улучшения качества сканов? Может быть существуют какие-нибудь дополнительные фильтры и так далее? Механизм с автоматическим расширением файлов я удачно освоил. Но честно говоря прок от этого оказался не таким как я ожидал (хотя повторюсь опыта у меян мало)


Спасибо: 0 
Quote Reply



link post  Posted: 08.04.08 15:10. Post subject: Thietmar пишет: И о..


Thietmar пишет:

 quote:
И очень сильно. А ну как помрем ?



Думаю, тогда мы сможем пообщаться непосредственно с авторами :D

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 00:39. Post subject: Halgar пишет: Думаю..


Halgar пишет:

 quote:
Думаю, тогда мы сможем пообщаться непосредственно с авторами :D



Хочется все же сейчас.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 01:52. Post subject: Хотеть не вредно. Ск..


Хотеть не вредно. Сколько распознаю тексты, торопливость никогда - подчеркиваю красным - никогда к хорошему не приводила. А правка текста в файнридере есть нонсенс. Окно маленькое, текст мелкий из-за этого, глазы из орбит вылазят. Я обычно распознаю страницу, копирую в ворд и читаю. Обращение к файну происходит только на именах собственных, географических названиях и иностранных текстах. Номер страницы в ворде копируется с предыдущей (со всеми жирностями и цветностями) и меняется одна цифра. Иногда сверяется со страницами в сканах. Все.

Титмар, пока бабки платить за распознавание не начнем - нихера быстрее не будет. А не начнем пока меценаты не объявятся. А не объявятся они никогда - потому что мало кому это надо. Тестовая система образования - она источников не требует.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 03:09. Post subject: Strori пишет: А не ..


Strori пишет:

 quote:
А не начнем пока меценаты не объявятся.



Нефтяную вышку бы надобно..

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 07:31. Post subject: Обмельчал народ


Обмельчал народ. За идею уже не работают как стахановцы.
Ну появятся меценаты и что ? Strori будет быстрее редактировать распознанный текст и его оформлять ? Ни хрена! Для него: "тише едешь - дальше будет".

А слова "А правка текста в файнридере есть нонсенс." - это комплекс, который о временем исчезает у тех, кто хочет меньше прыгать с скана в Ворд и обратно, да вообще быстрее исправить орфо. ошибки.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 08:25. Post subject: Benderod пишет: Обм..


Benderod пишет:

 quote:
Обмельчал народ. За идею уже не работают как стахановцы.


Стаханов работал далеко не за идею, если вы не в курсе. Бабло рубил нехилое. А гражданам мозг засрали за его идейность - до сих пор не проходит. Даю справку: все, участвующие в работе сайта - работают за идею. В отличие от Стаханова.

Benderod пишет:

 quote:
Ну появятся меценаты и что ?


Если будет возможность платить деньги за сканы - можно будет за это и спрашивать. А пока вы получаете к конверту то, что получаете. Сделанное хер пойми как и с косяками. Потому что бесплатно.

Benderod пишет:

 quote:
Strori будет быстрее редактировать распознанный текст и его оформлять ? Ни хрена! Для него: "тише едешь - дальше будет".


В среднем Strori распознает и оформляет 20 отсканированных страниц в день (ситуации когда лень или есть другие дела, понятно, не рассматриваются). После чего конвертит их и выкладывает на сайт. При этом успевает еще и другими вопросами по сайту заниматься. Вы это к какой категории относите? Тихо ехать или дальше быть?

Benderod пишет:

 quote:
А слова "А правка текста в файнридере есть нонсенс." - это комплекс, который о временем исчезает у тех, кто хочет меньше прыгать с скана в Ворд и обратно, да вообще быстрее исправить орфо. ошибки.


Чтобы править "орфо. ошибки" мне файнридер не нужен. Головы хватает. Вы где нашли про "орфо. ошибки" в моем предыдущем посте? Или, как сейчас у многих принято, в написанном видите не то, что написано, а то, что хочется видеть? Что касается правки текста в файнридере повторю еще раз - это нонсенс. Думаю со мной согласятся многие распознаватели этого сайта. Комплекс - как раз в файнридере работать, ибо это сильно замедляет вычитку текста.

PS: И хамить не надо, гражданин Benderod.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 15:10. Post subject: Спокойнее, граждане...


Спокойнее, граждане.. Без Strori сайта в его настоящем дизайне просто бы не существовало.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 09.04.08 16:36. Post subject: Strori пишет: Что к..


Strori пишет:

 quote:
Что касается правки текста в файнридере повторю еще раз - это нонсенс. Думаю со мной согласятся многие распознаватели этого сайта. Комплекс - как раз в файнридере работать, ибо это сильно замедляет вычитку текста.



Я от своих предыдуших слов не октазываюсь , про Ворд, но с тем что файнридер быстрее и функциональнее распознает ошибки тоже от части соглашусь. Это например касаеться текстов где количество ошибок минимально... Недавно столкнулся с одним таким. Алфавит современный, шрифт компьютерный, сканы средней паршивости.. Интерес сам текст для меня не представлял.... и вот в этом конкретном случае, действительно шелкать на ЕНТЕР мне было проще... распозновал я не для сайта а по работе своей.

страниц было 70, сделал все за 1 - 1,5 часа.

Спасибо: 0 
Quote Reply



link post  Posted: 09.04.08 19:22. Post subject: 1. Увеличивать DPI с..


1. Увеличивать DPI скана по-моему бесполезно. Очертания букв от этого четче не становятся. А вот распознавание с обучением помогает.
2. Про маленькое окно не понял. Браузер сканов располагаем внизу, окна "Изображение" и "Текст" друг под другом и увеличиваем масштаб до желаемого. Или монитор совсем маленький? Вычитываю текст именно в Файнридере, т.к. перед глазами и текст и скан. Распознав весь текст, экспортирую его в Ворд. По привычке в Ворде удаляю все переносы и задаю единый размер и тип шрифта. Дальше проверяю орфографию в Опеноффисе. Во-первых и в главных потому что работаю в линуксе, а во вторых ОО имеет возможность создавать, подключать и редактировать собственные словари, что очень полезно для русских документов, приведенных к современному написанию (слово "велеможнейшаго" обычный спеллчекер посчитает ошибкой). Отловить все ошибки во время распознавания у меня никогда не получалось. Ничего на этом этапе не выделяю, но расставляю скобки у номеров страниц. Дальше экспортирую в хтмл и загружаю в текстовый редактор. Мусорные теги в редакторе удаляются поиском и заменой, ей же добавляю жирность и цвет номерам страниц (тут конечно желательно квадратные скобки использовать только для этих номеров).

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.04.08 01:45. Post subject: Интересно, чего твор..


Интересно, чего творит с текстом опенофис, если потом просмотреть его можно только в браузере... В блокноте виндовом такие сочные каракули, что диву даешься.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.04.08 04:15. Post subject: Опенофис действитель..


Опенофис действительно с майрософтофскими изделями крайне мало совместим.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.04.08 12:15. Post subject: Интересно, чего твор..



 quote:
Интересно, чего творит с текстом опенофис, если потом просмотреть его можно только в браузере... В блокноте виндовом такие сочные каракули, что диву даешься.



Просто блокнот не знает других кодировок, кроме мелкомягких. К счастью, это не единственный редактор :) Хотя надо признать, что самый полный шрифт для юникода- майкрософтовский.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.04.08 15:06. Post subject: Вообще-то это был не..


Вообще-то это был не стандартный виндовый блокнот. :) Каюсь. Спецблокнот для кодинга.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 12.04.08 00:02. Post subject: Итак, я тут попыталс..


Итак, я тут попытался исправлять ошибки в фанридере 7. ошибок было очень много, и после второй страницы все это дело мне порядком надоело. Интересночто далеко не все ошибки фанридер принимал за таковые, ну к примеру слово "последн1й", он никак не отмечал за ошибку. Я сделал вывод что ошибкой файнридер считает только те слова в которых он прираспозновании засомневался.

В итоге я бросил эту идею и опять перешел на ворд,.. Даже если предположить, что время затраченное на исправление ошибок в FR быдут меньше, сам процесс меня сильно напряг. И даже если я пересилю себя и все исправлю.. то возможно возникнит жуткое нежелание заниматься этим и дальше.

Спасибо: 0 
Quote Reply



link post  Posted: 12.04.08 02:43. Post subject: Камрад, щас тебе ска..


Камрад, щас тебе скажут, что 7 файнридер отстой. Надо пользовать девятый, там все круто.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 13.04.08 16:48. Post subject: Я не хамлю! Но когд..


Я не хамлю!
Но когда говорят : "Комплекс - как раз в файнридере работать, ибо это сильно замедляет вычитку текста."
- это что истина в последней инстанции ?! Никогда не соглашусь!

"1. Увеличивать DPI скана по-моему бесполезно. Очертания букв от этого четче не становятся. А вот распознавание с обучением помогает."

- А по моему опыта как раз улучшает. И не надо никакого "обучения".

"Камрад, щас тебе скажут, что 7 файнридер отстой. Надо пользовать девятый, там все круто"

- Как вы угадали ?!!! Но для Stori я вижу хватит и версией 4.0.

Предлагаю Thietmar удалить эту тему вообще.


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 14.04.08 00:12. Post subject: Я бы удалил только л..


Я бы удалил только личные выпады, а полезные советы оставил.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 14.04.08 01:30. Post subject: Benderod, тебе сколь..


Benderod, тебе сколько лет?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 14.04.08 07:46. Post subject: Strori пишет: И не ..


Strori пишет:

 quote:
И не надо никакого "обучения".


Трудно мне с вам спорить конечно, весь мой опыт это работа в 7 FR, опытки установить 9, пок ане увенчались успехом. Но функция обучения в FR мне кажеться очень полезной. например в прошлом тексте c которым я работал, большинство букв "и", выглядело ка кдве волнистые вертикальные черты с утолщениями сверху (направой) и снизу (на левой черте), специально заметил около дюжины слов в которых были ошибки, после обучения (на других страницах), в этих словах мой FR неправильно распознал лишь 2 знака. Так что создание пользовательского эталона для распознования считаю очень целесообразным для исправления ошибок, особенно если речь идет о низкокачественных в типографском смысле источниках.

Спасибо: 0 
Quote Reply



link post  Posted: 14.04.08 07:49. Post subject: блин простите за оши..


блин простите за ошибки, печатаю быстро

Спасибо: 0 
Quote Reply



link post  Posted: 14.04.08 09:17. Post subject: Это где я такое писа..


Это где я такое писал???

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 15.04.08 16:45. Post subject: Странно, ничего не п..


Странно, ничего не понял... это писал Benderod и ему я и отвечал.. наеврно я как всегда куда-нибудь не туда нажал.

Кстати FR 9 я установил... Первое вппечатление - слишком мудро для такого просто парня как я. Может быть привыкну. Но интерфес 7го, уютный и понятный, мне нравился больше.

А на счет ошибок, тоя сразу сдела проверку. Пока разницы конкрено в распозновании не отметил... Правдо и картинки я подсунул плохие. И еще при автоматическом распозновании заметил такую особенность что 9й принимал ксераксные пятна за текст гораздо активнее 7й версии. А это может создать немного неудобств когда сканов будет много.

Я тут слышал что существует доп. словарь к FR "Русский старый", но у меня он не установлен, я так понимаю его надо где-нибудь найти и установить... Но вот вопрос ГДЕ?



Спасибо: 0 
Quote Reply



link post  Posted: 15.04.08 16:48. Post subject: Думаю я продолжу экс..


Думаю я продолжу эксперементы... Но все же думаю что процесс совершенствования и уменьшения количества ошибок лежим все-таки где-то в сфере ВЕЛИКОГО ФОТОШОПА

Спасибо: 0 
Quote Reply



link post  Posted: 16.04.08 12:37. Post subject: Владислав пишет: Я ..


Владислав пишет:

 quote:
Я тут слышал что существует доп. словарь к FR "Русский старый", но у меня он не установлен, я так понимаю его надо где-нибудь найти и установить... Но вот вопрос ГДЕ?



В моем 7-м он указывался в базовой установке. Можно ли доустановить - надо проверять экспериментально...

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 16.04.08 12:42. Post subject: Хальги, ты не вышлеш..


Хальги, ты не вышлешь этот свой словарь русского старого мне ? Чисто файл.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 17.04.08 15:27. Post subject: Thietmar пишет: Хал..


Thietmar пишет:

 quote:
Хальги


От так меня еще точно не обзывали... %=0

Тебе от 7-го или от 9-го?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 17.04.08 17:05. Post subject: Halgar пишет: От та..


Halgar пишет:

 quote:
От так меня еще точно не обзывали... %=0



Всё когда-то бывает впервые!

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 18.04.08 12:31. Post subject: Halgar пишет: От та..


Halgar пишет:

 quote:
От так меня еще точно не обзывали... %=0



Нормальное сокращение от хальгар. От седьмого.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 21.04.08 07:24. Post subject: Thietmar пишет: От ..


Thietmar пишет:

 quote:
От седьмого.

А можно и мне... по...по...по....пожалуста! как-нибудь потом, когда время будет... от седьмого или от девятого.. у меня оба установлены.

Спасибо: 0 
Quote Reply



link post  Posted: 29.04.08 11:26. Post subject: Halgar а нет ли у В..


Halgar
а нет ли у Вас случайно статьи?
Писарев Ю.И. К вопросу о характере и составе свит английских феодалов первой половины XIV в. // Вестник МГУ, серия «История», 1972 г., № 3.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.04.08 16:02. Post subject: Товарищи! я тут опро..


Товарищи! я тут опробывал фанридер9, могу сказать что действительно очень хоош. Немного мудренный конечно по сранению с 7 но все же.

Вопрос со словарем "Старый русский" Оказываетьс яон есть в стандартной комплектации. Я его установл. Но оказалось что толку то от этого почти нет. Самое главное это то что расозновать он распознает но текст строит именно на основе старой русской орфографии. А существуют ли установки в фр, что бы он разпозновал старую орфографию и менял бы ее сразу на современную автоматически? Или жде может быь существуют такие функции в Ворде? И еще у меня "еть" например не отражаеться в тексте, показывает что отсуствует знак, наеврно это из-за шрифта Что же делаь?

Спасибо: 0 
Quote Reply



link post  Posted: 30.04.08 08:28. Post subject: ­Макс пишет: а нет л..


*PRIVAT*

Спасибо: 0 
ProfileQuote Reply
Replys - 53 , page: 1 2 3 4 All [new only]
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 8
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no