On-line: guests 0. In total there are: 0 [information..]
AuthorTopic





link post  Posted: 21.04.06 14:06. Post subject: OCR: различные технические моменты


Babek wrote: <...> ( в виде PDF файла ~85 mb.). <...>
Не представляю как Word сможет открыть файл такого размера.

Bewerr:
Размер файла говорит о том, что, скорее всего, это не пдф-документ со встроенными шрифтами и возможностью скопировать из него текст (например, в Adobe Reader эта функция есть начиная с версии 5.0), а пдф лишь как оболочка для инкорпорированных в него растровых изображений (сканов). Такие пдф-ы могут быть и бОльшими - мне встречались по 120-130 мегов.
Получаются они двумя путями: либо сканировали сразу в мультистраничный пдф посредством программного обеспечения, идущего в комплекте со сканером, либо отсканированные изображения потом преобразовали в пдф с помощью пдф-конвертера/редактора.
Проверить очень просто - пытаетесь скопировать текст или же ищете в пдф-е какое-либо слово (Ctrl+F). Если не получилось, то в этом случае требуется распознать текст.

Из пдф-а с текстом получить doc-файл можно двумя путями - пытаться конвертировать с помощью какого-либо проприетарного программного обеспечения сразу в doc, или же копировать текст в любой текстовый редактор.
Собственно doc-файл для публикации в интернете совершенно не нужен. На выходе нужен html-файл, текст для которого может быть подготовлен в формате rtf, в некоторых простых случаях - даже txt, можно работать и в других форматах, но это уже на любителя либо при особо специфичных распознаваемых материалах.

Если в книге есть рисунки или фотографии, то их обработка для публикации в интернете требует некоторых навыков. Это отдельная тема.


Спасибо: 0 
ProfileQuote Reply
Replys - 26 , page: 1 2 All [new only]





link post  Posted: 22.04.06 09:41. Post subject: Re:


Bewerr

Рисунков и фоторографий в книге нет. Поиск осуществлять получается. В какой формат переводить? html? rtf? txt?

Мне кажется, что Вы имеет отношение к администрированию сайта, поэтому вопрос очевидно будет уместен к Вам, на сайте нет поиска по содержанию. Как осуществить ?

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 22.04.06 10:42. Post subject: Re:


Babek'у:

Согласование форматов - это Вам надо спросить у Thietmar'a.

Нет, неверно. К администрированию сайта я не имею никакого отношения. Я обычный участник форума.

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 22.04.06 10:46. Post subject: Re:


Babek> Рисунков и фоторографий в книге нет. Поиск осуществлять получается.

Вы говорили про два пдф-а (3-4 и 85 мегов). Про какой идет речь сейчас?



Спасибо: 0 
ProfileQuote Reply



link post  Posted: 22.04.06 12:24. Post subject: Re:


Я говорю про тот который заинтересовал Thietmar-а - 85 мегов. ("Синяя летопись...")


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 22.04.06 14:26. Post subject: Re:


768 страниц чистого текста не могут иметь размер 85 мегабайт. Максимум 5-6.
Посмотрите внимательно - есть ли страницы, на которых текст не выделяется. Если в файл встроили хотя бы 10-15 страниц в несжатом tiff-e, 256 градаций серого, да с большим разрешением (400-600 dpi), то из-за них размер мог раздуться до 85 мегов. Иногда текст в пдф-ах OCR-щики дают именно текстом, но таблицы делают именно как встраиваемые изображения (для упрощения процесса распознавания). Есть ли в книге таблицы?
Еще могут быть иероглифы - и если их вставляли как изображения, а не через использование китайских и т.п. фонтов, то это тоже могло привести к такому невероятно огромному размеру файла.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 24.04.06 10:41. Post subject: Может быть еще одна причина


Bewerr пишет:

 quote:
768 страниц чистого текста не могут иметь размер 85 мегабайт



Иногда в одном PDF бывают изображения, продублированные наложенным сверху текстом. Adobe Acrobat (не Reader ) позволяет делать это, там есть встроенный OCR.

Делают это, чтобы и оригинальный вид сохранить, и поиском текста в PDF пользоваться.


regards,
aeg


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 24.04.06 11:37. Post subject: Re:


Babek

А есть у вас какая-нибудь возможность переслать мне этот текст хотя бы в pdf ?

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 24.04.06 11:47. Post subject: Re:


a_e_g: Иногда в одном PDF бывают изображения, продублированные наложенным сверху текстом.

Если они так делают с pdf-ом, то они просто чудовища :-). Для таких вещей надо формат djvu использовать...


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 24.04.06 11:59. Post subject: Они еще и лентяи :P


Bewerr пишет:

 quote:
Если они так делают с pdf-ом, то они просто чудовища :-). Для таких вещей надо формат djvu использовать...



Представьте, сколько надо работы, чтобы из PDF сделать Дежавю:

1) Вытащить картинки из PDF (не всегда это можно сделать)
2) Распознать текст (то же самое)
3) Запихать это в Djvu.


regards,
aeg


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 24.04.06 15:24. Post subject: Re:


a_e_g wrote:

 quote:
Представьте, сколько надо работы, чтобы из PDF сделать Дежавю:



Представляю :-). Но я о другом - зачем ИМ понадобилось это запихивать в пдф.

А тема вообще интересная. Уважаемый a_e_g , нет ли у Вас случайно образца такого пдф-а (картинка + текст)? Если есть, то могли бы Вы его выслать на dddv@pochta.ru ?



Спасибо: 0 
ProfileQuote Reply





link post  Posted: 24.04.06 15:38. Post subject: Re:


Все просто оказалось, полминуты в гугле: линк на "Синюю летопись" выложен на avaxhome.ru
http://www.avaxhome.ru/ebooks/the_blue_annals.html
Рапидшара... уже скачался, сейчас буду его препарировать :-).


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 24.04.06 18:07. Post subject: Должен где-то быть


Как найду - вышлю обязательно.

regards,
aeg


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 24.04.06 19:08. Post subject: Re:


Предположение а_е_g об изображениях и тексте подтвердились.
Однобитные сканы страниц + автоматически распознанный текст (русско-английский). Сделан из Файн-Ридера + Акробат 7.0.
Разрешение - тут я имеющимися средствами не смог определить точно. Не меньше 300 dpi, возможно, что и 400-600.
Текст с картинками в одном файле, судя по всему, разместили из-за фрагментов на санскрите и множества примечаний, с которыми решили не возиться. Часть примечаний (около корешка книги) не распознана, санскрит распознан латинскими буквами без спец.символов. Карты - качество сканов очень плохое.
Выломать подручными средствами из такого файла картинки мне не удалось.
Для уменьшения размера можно лишь выкопировать текст в txt и потом уменьшить размер графических изображений (примерно в два раза).
Хотя зачем это делать? для "повременки" и 30 мегов скачать почти что нереально, а для выделенного - и 60 не проблема.
А работы по распознаванию там будет много ...


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 24.04.06 21:16. Post subject: Re:


Так может проще наново отсканить ?

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 24.04.06 22:42. Post subject: Re:


Thietmar wrote:

 quote:
Так может проще наново отсканить ?



Нет, не надо. В сканах эта книга в целом приемлема, кроме листов с картами.

в данном файле я лично(говорю только за себя, a_e_g в этом вопросе более информирован) впервые столкнулся с новшеством, разрекламированным здесь:
http://www.abbyy.ru/finereader8/?param=45007

Цитата: "В ABBYY FineReader 8.0 усовершенствована технология обработки PDF-файлов. Как известно, некоторые PDF-файлы содержат так называемый текстовый слой, причём его содержимое может не полностью соответствовать видимому на экране документу. FineReader 8.0 предварительно анализирует содержимое файла и для каждого текстового блока принимает решение: распознать его или извлечь соответствующий текст из текстового слоя. Таким образом удаётся увеличить качество распознавания и в 2 раза сократить время обработки*."
* - По сравнению с ABBYY FineReader 7.0; по результатам внутренних тестов.

Далее мои предположения:

Таким образом, FineReader сам решает, что ему удалось распознать, и потом делает следующее:
Берется скан в известном tiff G4 (иначе не объяснить размер страницы в ~100 кБ). По результатам распознавания создается текстовый файл типа того, что получается, если скопировать распознанное FineReader'ом в текстовый редактор и сохранить в формате txt. Чистится "автоматом".
Потом FineReader прикрепляет результат в txt к результату в tiff G4. Со всеми погрешностями и своевольными "принятыми решениями". Теперь эту хрень надо куда-то деть - и здесь они решили, что им подходит формат pdf. Конечно, зачем же использовать djvu - это еще надо будет объяснять всем, кто захочет потом файл посмотреть, про плагины к браузерам, просмотрщик Lizardtech... а Acrobat Reader уже практически на каждом компе установлен. На размер файла внимания не обращали - ну, подумаешь, 60 мегов вместо 20. Может, они и правы - только к переводу текста в эл.вид в нашем понимании это не относится. Они сделали суррогат, "безалкогольное пиво с резиновой женщиной".

Нехорошие моменты:
1) Текст распознан не до конца - поиск по тексту не даст всех возможных результатов. Комментарий - а зачем тогда вообще эл.вид документа? Просто переслать сканы можно и в обычном многостраничном пдф-е, и в тифф-е.
2) Распознанный текст содержит ошибки, которые изготовитель файла и не думал корректировать. Скажем, в рассмотренном примере я успел заметить в таблицах в конце книги "Год"->"евин." вместо "Год"->"свин." - там речь о китайском календаре.
3) Для специалиста нераспознанный санскрит вообще может быть куда большим препятствием для пользования эл.копией документа, чем для обычного читателя - этот самый "год евиньи".
4) Размер файла примерно в два раза больше того, который бы получился при простом многостраничном тиффе. В серии экспериментов над вышеуказанным файлом мне удалось извлечь из него всю графику в виде 28-мегабайтного tiff G4. "Автоматический" текст составил бы еще мегабайт-другой; остальные 25-30 мегов - шелуха, чтобы "было удобно" + всякие штучки Adobe насчет security.

Возможно, для оцифровки простых книг (и особенно содержащих множество таблиц) этот метод еще как-то подошел бы. На Западе или внутри большой корпорации - там, где есть возможность быстрой перекачки по сети файла в десятки мегов.

Для России, с ее преобладающим соединением "по дозвону" - нет.
Для исторических документов и серьезных исторических книг, содержащих зачастую текст на нескольких языках - нет.

Для полноценного OCR'a такой файл по-прежнему лишь источник изображений, если не считать совершенно небольшого облегчения труда - первичное распознавание, занимающее лишь малую часть от затраченного в общем времени, все-таки уже как-то выполнено.
Корректура остается необходимой.

Bewerr.






Спасибо: 0 
ProfileQuote Reply



link post  Posted: 28.04.06 10:53. Post subject: Re:



 quote:
Из пдф-а с текстом получить doc-файл можно двумя путями - пытаться конвертировать с помощью какого-либо проприетарного программного обеспечения сразу в doc, или же копировать текст в любой текстовый редактор.


Есть еще третий вариант, между прочим - пдф, который чересчур умные создатели взяли да и защитили от изменений... в этом случае надобно сначала защиту снять...

М-м-м. Я что-то не понимаю сути проблемы. Есть pdf в 85 метров - типа распознанный 8) на деле получить из него нормальный документ не получается. Так вот, чем страдать и разыскивать всякие конверторы - проще распознать заново файнридером. Оч просто делается - просто извлекаются страницы. Извлекаются акробатом они в jpg, одна страница - один файл :) Дальнейшее, думаю, понятно.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 28.04.06 14:18. Post subject: pdf -> reader


новый ридер пдф сам понимает...

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 28.04.06 17:28. Post subject: Re:


Ну... вообще-то да, я чего-то погорячился. Вышеописанным способом я распознавал откровенно страшные сканы, зашитые в пдф - там после выдирания листов приходилось их в фотошопе обрабатывать :)
Но в данном случае - действительно, лишние движения получаются :)

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 30.04.06 01:07. Post subject: Re:


Reindeer wrote:

 quote:
Есть еще третий вариант, между прочим - пдф, который чересчур умные создатели взяли да и защитили от изменений... в этом случае надобно сначала защиту снять...



Ну уж это совершенно не проблема. Кроме случаев, когда сам пдф защищен паролем на открытие файла.
Ghostscript+Ghostgum -> pdfwrite. Эта связка просто игнорирует любые запреты Adobe (уж таков пдф, Adobe об этом тоже предупреждает любителей понаставить разные запреты в security settings файла)...

Из 85-мегового можно скопировать текст. Можно распознать заново по файлам-изображениям. Проблема не в этом, а в самой путанице, возникшей с появлением такой вот технологии смешения полураспознанного текста, инкорпорированных изображений и слегка раздутого (в мегах) файла в формате пдф.
Надругательство над правильно сделанным распознаванием, только и всего ;-).



Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.04.06 10:24. Post subject: Re:



 quote:
Ghostscript+Ghostgum -> pdfwrite. Эта связка просто игнорирует любые запреты Adobe (уж таков пдф, Adobe об этом тоже предупреждает любителей понаставить разные запреты в security settings файла)...


Я предпочитаю PDF Password Recovery от Элкома :)

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.05.06 15:57. Post subject: Re:


господа!
Простой до тупости (моей) вопрос: как отсканенные странички сохранять не в пдф, а в тиф или хотя бы в джпг?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.05.06 16:42. Post subject: Это смотря чем Вы сканируете


Я вообще фотоаппаратом фотографирую (и потом в FineReader 8). А он (фотоаппарат то есть) только TIF и JPG умеет, никаких PDF

Можно из какого-нибудь графического редактора сохранять, который сканировать может. Photoshop, например.


regards,
aeg


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.05.06 16:47. Post subject: Re:


мысль хорошая, тока чтобы фотошоп поставить надо начальство просить, а оно что-то не в духе...

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 10.05.06 21:43. Post subject: Re:


Макс wrote:

 quote:
Простой до тупости (моей) вопрос: как отсканенные странички сохранять не в пдф, а в тиф или хотя бы в джпг?




Макс wrote:

 quote:
мысль хорошая, тока чтобы фотошоп поставить надо начальство просить, а оно что-то не в духе...



Так у Вас на работе планшетный настольный сканер или какой-нибудь "многофункционально"-сетевой?
Если планшетник - тогда не понятно, в чем проблема. Настраиваете сканирование в файл, выбираете формат и процесс пошел.
Если сетевой - надо смотреть, если у него возможность TWAIN сканирования и доступен ли конкретно для Вашего рабочего компа TWAIN-драйвер. Если "да", то устанавливайте GIMP. (Это, пожалуй, единственный абсолютно бесплатный редактор безо всяких ограничений по пользованию на работе. Например, многими любимые IrfanView и XnView бесплатны только для домашнего пользования, а в случае установке на корпоративном компе попадают в разряд нелицензированного ПО.)
Если админ уже настроил для вашего компа "сканы только в пдф" - тут отдельная тема.

Словом, если хотите более четкого ответа, сформулируйте, пожалуйста, вопрос конкретнее.


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 11.05.06 22:58. Post subject: Re:


Полезная программа для выдергивания изображений из пдф-а.
http://www.computerra.ru/gid/rtfm/utility/267747/

Выдеригивает джепеги, а гифы преобразовывает в битмапы.
Вроде работоспособна.




Спасибо: 0 
ProfileQuote Reply





link post  Posted: 12.05.06 16:17. Post subject: Re:


Попробовал поиск в вышеупоминаемом пдф-е "Синей летописи".
"Книга 1" - в файле распознано как "К н и г а !"

На avaxhome по той же ссылке выложена недостающая часть, книги с 9 по 15, 20 мегов.
Попробовал на этом файле работоспособность PDF Image Extraction Wizard.
Изображения вытаскиваются нормально, bmp по 600-700 КБ.
В программе при работе с этим файлом замечен баг - без указания страниц вытащила только 23 страницы. Если указать страницы с 1 по 194, то вытаскивает всё. Интересно, что 101 страница в оригинальном файле была в виде джепега, все остальные, по видимому в тифе.


Спасибо: 0 
ProfileQuote Reply
Replys - 26 , page: 1 2 All [new only]
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 3
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no