On-line: guests 0. In total there are: 0 [information..]
AuthorTopic





link post  Posted: 21.04.06 14:06. Post subject: OCR: различные технические моменты


Babek wrote: <...> ( в виде PDF файла ~85 mb.). <...>
Не представляю как Word сможет открыть файл такого размера.

Bewerr:
Размер файла говорит о том, что, скорее всего, это не пдф-документ со встроенными шрифтами и возможностью скопировать из него текст (например, в Adobe Reader эта функция есть начиная с версии 5.0), а пдф лишь как оболочка для инкорпорированных в него растровых изображений (сканов). Такие пдф-ы могут быть и бОльшими - мне встречались по 120-130 мегов.
Получаются они двумя путями: либо сканировали сразу в мультистраничный пдф посредством программного обеспечения, идущего в комплекте со сканером, либо отсканированные изображения потом преобразовали в пдф с помощью пдф-конвертера/редактора.
Проверить очень просто - пытаетесь скопировать текст или же ищете в пдф-е какое-либо слово (Ctrl+F). Если не получилось, то в этом случае требуется распознать текст.

Из пдф-а с текстом получить doc-файл можно двумя путями - пытаться конвертировать с помощью какого-либо проприетарного программного обеспечения сразу в doc, или же копировать текст в любой текстовый редактор.
Собственно doc-файл для публикации в интернете совершенно не нужен. На выходе нужен html-файл, текст для которого может быть подготовлен в формате rtf, в некоторых простых случаях - даже txt, можно работать и в других форматах, но это уже на любителя либо при особо специфичных распознаваемых материалах.

Если в книге есть рисунки или фотографии, то их обработка для публикации в интернете требует некоторых навыков. Это отдельная тема.


Спасибо: 0 
ProfileQuote Reply
Replys - 26 , page: 1 2 All [new only]





link post  Posted: 22.04.06 09:41. Post subject: Re:


Bewerr

Рисунков и фоторографий в книге нет. Поиск осуществлять получается. В какой формат переводить? html? rtf? txt?

Мне кажется, что Вы имеет отношение к администрированию сайта, поэтому вопрос очевидно будет уместен к Вам, на сайте нет поиска по содержанию. Как осуществить ?

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 22.04.06 10:42. Post subject: Re:


Babek'у:

Согласование форматов - это Вам надо спросить у Thietmar'a.

Нет, неверно. К администрированию сайта я не имею никакого отношения. Я обычный участник форума.

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 22.04.06 10:46. Post subject: Re:


Babek> Рисунков и фоторографий в книге нет. Поиск осуществлять получается.

Вы говорили про два пдф-а (3-4 и 85 мегов). Про какой идет речь сейчас?



Спасибо: 0 
ProfileQuote Reply



link post  Posted: 22.04.06 12:24. Post subject: Re:


Я говорю про тот который заинтересовал Thietmar-а - 85 мегов. ("Синяя летопись...")


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 22.04.06 14:26. Post subject: Re:


768 страниц чистого текста не могут иметь размер 85 мегабайт. Максимум 5-6.
Посмотрите внимательно - есть ли страницы, на которых текст не выделяется. Если в файл встроили хотя бы 10-15 страниц в несжатом tiff-e, 256 градаций серого, да с большим разрешением (400-600 dpi), то из-за них размер мог раздуться до 85 мегов. Иногда текст в пдф-ах OCR-щики дают именно текстом, но таблицы делают именно как встраиваемые изображения (для упрощения процесса распознавания). Есть ли в книге таблицы?
Еще могут быть иероглифы - и если их вставляли как изображения, а не через использование китайских и т.п. фонтов, то это тоже могло привести к такому невероятно огромному размеру файла.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 24.04.06 10:41. Post subject: Может быть еще одна причина


Bewerr пишет:

 quote:
768 страниц чистого текста не могут иметь размер 85 мегабайт



Иногда в одном PDF бывают изображения, продублированные наложенным сверху текстом. Adobe Acrobat (не Reader ) позволяет делать это, там есть встроенный OCR.

Делают это, чтобы и оригинальный вид сохранить, и поиском текста в PDF пользоваться.


regards,
aeg


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 24.04.06 11:37. Post subject: Re:


Babek

А есть у вас какая-нибудь возможность переслать мне этот текст хотя бы в pdf ?

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 24.04.06 11:47. Post subject: Re:


a_e_g: Иногда в одном PDF бывают изображения, продублированные наложенным сверху текстом.

Если они так делают с pdf-ом, то они просто чудовища :-). Для таких вещей надо формат djvu использовать...


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 24.04.06 11:59. Post subject: Они еще и лентяи :P


Bewerr пишет:

 quote:
Если они так делают с pdf-ом, то они просто чудовища :-). Для таких вещей надо формат djvu использовать...



Представьте, сколько надо работы, чтобы из PDF сделать Дежавю:

1) Вытащить картинки из PDF (не всегда это можно сделать)
2) Распознать текст (то же самое)
3) Запихать это в Djvu.


regards,
aeg


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 24.04.06 15:24. Post subject: Re:


a_e_g wrote:

 quote:
Представьте, сколько надо работы, чтобы из PDF сделать Дежавю:



Представляю :-). Но я о другом - зачем ИМ понадобилось это запихивать в пдф.

А тема вообще интересная. Уважаемый a_e_g , нет ли у Вас случайно образца такого пдф-а (картинка + текст)? Если есть, то могли бы Вы его выслать на dddv@pochta.ru ?



Спасибо: 0 
ProfileQuote Reply





link post  Posted: 24.04.06 15:38. Post subject: Re:


Все просто оказалось, полминуты в гугле: линк на "Синюю летопись" выложен на avaxhome.ru
http://www.avaxhome.ru/ebooks/the_blue_annals.html
Рапидшара... уже скачался, сейчас буду его препарировать :-).


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 24.04.06 18:07. Post subject: Должен где-то быть


Как найду - вышлю обязательно.

regards,
aeg


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 24.04.06 19:08. Post subject: Re:


Предположение а_е_g об изображениях и тексте подтвердились.
Однобитные сканы страниц + автоматически распознанный текст (русско-английский). Сделан из Файн-Ридера + Акробат 7.0.
Разрешение - тут я имеющимися средствами не смог определить точно. Не меньше 300 dpi, возможно, что и 400-600.
Текст с картинками в одном файле, судя по всему, разместили из-за фрагментов на санскрите и множества примечаний, с которыми решили не возиться. Часть примечаний (около корешка книги) не распознана, санскрит распознан латинскими буквами без спец.символов. Карты - качество сканов очень плохое.
Выломать подручными средствами из такого файла картинки мне не удалось.
Для уменьшения размера можно лишь выкопировать текст в txt и потом уменьшить размер графических изображений (примерно в два раза).
Хотя зачем это делать? для "повременки" и 30 мегов скачать почти что нереально, а для выделенного - и 60 не проблема.
А работы по распознаванию там будет много ...


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 24.04.06 21:16. Post subject: Re:


Так может проще наново отсканить ?

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 24.04.06 22:42. Post subject: Re:


Thietmar wrote:

 quote:
Так может проще наново отсканить ?



Нет, не надо. В сканах эта книга в целом приемлема, кроме листов с картами.

в данном файле я лично(говорю только за себя, a_e_g в этом вопросе более информирован) впервые столкнулся с новшеством, разрекламированным здесь:
http://www.abbyy.ru/finereader8/?param=45007

Цитата: "В ABBYY FineReader 8.0 усовершенствована технология обработки PDF-файлов. Как известно, некоторые PDF-файлы содержат так называемый текстовый слой, причём его содержимое может не полностью соответствовать видимому на экране документу. FineReader 8.0 предварительно анализирует содержимое файла и для каждого текстового блока принимает решение: распознать его или извлечь соответствующий текст из текстового слоя. Таким образом удаётся увеличить качество распознавания и в 2 раза сократить время обработки*."
* - По сравнению с ABBYY FineReader 7.0; по результатам внутренних тестов.

Далее мои предположения:

Таким образом, FineReader сам решает, что ему удалось распознать, и потом делает следующее:
Берется скан в известном tiff G4 (иначе не объяснить размер страницы в ~100 кБ). По результатам распознавания создается текстовый файл типа того, что получается, если скопировать распознанное FineReader'ом в текстовый редактор и сохранить в формате txt. Чистится "автоматом".
Потом FineReader прикрепляет результат в txt к результату в tiff G4. Со всеми погрешностями и своевольными "принятыми решениями". Теперь эту хрень надо куда-то деть - и здесь они решили, что им подходит формат pdf. Конечно, зачем же использовать djvu - это еще надо будет объяснять всем, кто захочет потом файл посмотреть, про плагины к браузерам, просмотрщик Lizardtech... а Acrobat Reader уже практически на каждом компе установлен. На размер файла внимания не обращали - ну, подумаешь, 60 мегов вместо 20. Может, они и правы - только к переводу текста в эл.вид в нашем понимании это не относится. Они сделали суррогат, "безалкогольное пиво с резиновой женщиной".

Нехорошие моменты:
1) Текст распознан не до конца - поиск по тексту не даст всех возможных результатов. Комментарий - а зачем тогда вообще эл.вид документа? Просто переслать сканы можно и в обычном многостраничном пдф-е, и в тифф-е.
2) Распознанный текст содержит ошибки, которые изготовитель файла и не думал корректировать. Скажем, в рассмотренном примере я успел заметить в таблицах в конце книги "Год"->"евин." вместо "Год"->"свин." - там речь о китайском календаре.
3) Для специалиста нераспознанный санскрит вообще может быть куда большим препятствием для пользования эл.копией документа, чем для обычного читателя - этот самый "год евиньи".
4) Размер файла примерно в два раза больше того, который бы получился при простом многостраничном тиффе. В серии экспериментов над вышеуказанным файлом мне удалось извлечь из него всю графику в виде 28-мегабайтного tiff G4. "Автоматический" текст составил бы еще мегабайт-другой; остальные 25-30 мегов - шелуха, чтобы "было удобно" + всякие штучки Adobe насчет security.

Возможно, для оцифровки простых книг (и особенно содержащих множество таблиц) этот метод еще как-то подошел бы. На Западе или внутри большой корпорации - там, где есть возможность быстрой перекачки по сети файла в десятки мегов.

Для России, с ее преобладающим соединением "по дозвону" - нет.
Для исторических документов и серьезных исторических книг, содержащих зачастую текст на нескольких языках - нет.

Для полноценного OCR'a такой файл по-прежнему лишь источник изображений, если не считать совершенно небольшого облегчения труда - первичное распознавание, занимающее лишь малую часть от затраченного в общем времени, все-таки уже как-то выполнено.
Корректура остается необходимой.

Bewerr.






Спасибо: 0 
ProfileQuote Reply
Replys - 26 , page: 1 2 All [new only]
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 4
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no