Forum » Вопросы по сайту » OCR: различные технические моменты
	перенос

Author

Topic

Bewerr

Posted: 21.04.06 14:06. Post subject: OCR: различные технические моменты

Babek wrote: <...> ( в виде PDF файла ~85 mb.). <...>
Не представляю как Word сможет открыть файл такого размера.

Bewerr:
Размер файла говорит о том, что, скорее всего, это не пдф-документ со встроенными шрифтами и возможностью скопировать из него текст (например, в Adobe Reader эта функция есть начиная с версии 5.0), а пдф лишь как оболочка для инкорпорированных в него растровых изображений (сканов). Такие пдф-ы могут быть и бОльшими - мне встречались по 120-130 мегов.
Получаются они двумя путями: либо сканировали сразу в мультистраничный пдф посредством программного обеспечения, идущего в комплекте со сканером, либо отсканированные изображения потом преобразовали в пдф с помощью пдф-конвертера/редактора.
Проверить очень просто - пытаетесь скопировать текст или же ищете в пдф-е какое-либо слово (Ctrl+F). Если не получилось, то в этом случае требуется распознать текст.

Из пдф-а с текстом получить doc-файл можно двумя путями - пытаться конвертировать с помощью какого-либо проприетарного программного обеспечения сразу в doc, или же копировать текст в любой текстовый редактор.
Собственно doc-файл для публикации в интернете совершенно не нужен. На выходе нужен html-файл, текст для которого может быть подготовлен в формате rtf, в некоторых простых случаях - даже txt, можно работать и в других форматах, но это уже на любителя либо при особо специфичных распознаваемых материалах.

Если в книге есть рисунки или фотографии, то их обработка для публикации в интернете требует некоторых навыков. Это отдельная тема.

Replys - 26 , page: 1 2 All [new only]

Reindeer

Posted: 28.04.06 10:53. Post subject: Re:

quote:

Из пдф-а с текстом получить doc-файл можно двумя путями - пытаться конвертировать с помощью какого-либо проприетарного программного обеспечения сразу в doc, или же копировать текст в любой текстовый редактор.

Есть еще третий вариант, между прочим - пдф, который чересчур умные создатели взяли да и защитили от изменений... в этом случае надобно сначала защиту снять...

М-м-м. Я что-то не понимаю сути проблемы. Есть pdf в 85 метров - типа распознанный 8) на деле получить из него нормальный документ не получается. Так вот, чем страдать и разыскивать всякие конверторы - проще распознать заново файнридером. Оч просто делается - просто извлекаются страницы. Извлекаются акробатом они в jpg, одна страница - один файл :) Дальнейшее, думаю, понятно.

Halgar Fenrirsson

Posted: 28.04.06 14:18. Post subject: pdf -> reader

новый ридер пдф сам понимает...

Reindeer

Posted: 28.04.06 17:28. Post subject: Re:

Ну... вообще-то да, я чего-то погорячился. Вышеописанным способом я распознавал откровенно страшные сканы, зашитые в пдф - там после выдирания листов приходилось их в фотошопе обрабатывать :)
Но в данном случае - действительно, лишние движения получаются :)

Bewerr

Posted: 30.04.06 01:07. Post subject: Re:

Reindeer wrote:

quote:

Есть еще третий вариант, между прочим - пдф, который чересчур умные создатели взяли да и защитили от изменений... в этом случае надобно сначала защиту снять...

Ну уж это совершенно не проблема. Кроме случаев, когда сам пдф защищен паролем на открытие файла.
Ghostscript+Ghostgum -> pdfwrite. Эта связка просто игнорирует любые запреты Adobe (уж таков пдф, Adobe об этом тоже предупреждает любителей понаставить разные запреты в security settings файла)...

Из 85-мегового можно скопировать текст. Можно распознать заново по файлам-изображениям. Проблема не в этом, а в самой путанице, возникшей с появлением такой вот технологии смешения полураспознанного текста, инкорпорированных изображений и слегка раздутого (в мегах) файла в формате пдф.
Надругательство над правильно сделанным распознаванием, только и всего ;-).

Reindeer

Posted: 30.04.06 10:24. Post subject: Re:

quote:

Ghostscript+Ghostgum -> pdfwrite. Эта связка просто игнорирует любые запреты Adobe (уж таков пдф, Adobe об этом тоже предупреждает любителей понаставить разные запреты в security settings файла)...

Я предпочитаю PDF Password Recovery от Элкома :)

Макс

Posted: 10.05.06 15:57. Post subject: Re:

господа!
Простой до тупости (моей) вопрос: как отсканенные странички сохранять не в пдф, а в тиф или хотя бы в джпг?

a_e_g

Posted: 10.05.06 16:42. Post subject: Это смотря чем Вы сканируете

Я вообще фотоаппаратом фотографирую (и потом в FineReader 8). А он (фотоаппарат то есть) только TIF и JPG умеет, никаких PDF

Можно из какого-нибудь графического редактора сохранять, который сканировать может. Photoshop, например.

regards,
aeg

Макс

Posted: 10.05.06 16:47. Post subject: Re:

мысль хорошая, тока чтобы фотошоп поставить надо начальство просить, а оно что-то не в духе...

Bewerr

Posted: 10.05.06 21:43. Post subject: Re:

Макс wrote:

quote:

Простой до тупости (моей) вопрос: как отсканенные странички сохранять не в пдф, а в тиф или хотя бы в джпг?

Макс wrote:

quote:

мысль хорошая, тока чтобы фотошоп поставить надо начальство просить, а оно что-то не в духе...

Так у Вас на работе планшетный настольный сканер или какой-нибудь "многофункционально"-сетевой?
Если планшетник - тогда не понятно, в чем проблема. Настраиваете сканирование в файл, выбираете формат и процесс пошел.
Если сетевой - надо смотреть, если у него возможность TWAIN сканирования и доступен ли конкретно для Вашего рабочего компа TWAIN-драйвер. Если "да", то устанавливайте GIMP. (Это, пожалуй, единственный абсолютно бесплатный редактор безо всяких ограничений по пользованию на работе. Например, многими любимые IrfanView и XnView бесплатны только для домашнего пользования, а в случае установке на корпоративном компе попадают в разряд нелицензированного ПО.)
Если админ уже настроил для вашего компа "сканы только в пдф" - тут отдельная тема.

Словом, если хотите более четкого ответа, сформулируйте, пожалуйста, вопрос конкретнее.

Bewerr

Posted: 11.05.06 22:58. Post subject: Re:

Полезная программа для выдергивания изображений из пдф-а.
http://www.computerra.ru/gid/rtfm/utility/267747/

Выдеригивает джепеги, а гифы преобразовывает в битмапы.
Вроде работоспособна.

Bewerr

Posted: 12.05.06 16:17. Post subject: Re:

Попробовал поиск в вышеупоминаемом пдф-е "Синей летописи".
"Книга 1" - в файле распознано как "К н и г а !"

На avaxhome по той же ссылке выложена недостающая часть, книги с 9 по 15, 20 мегов.
Попробовал на этом файле работоспособность PDF Image Extraction Wizard.
Изображения вытаскиваются нормально, bmp по 600-700 КБ.
В программе при работе с этим файлом замечен баг - без указания страниц вытащила только 23 страницы. Если указать страницы с 1 по 194, то вытаскивает всё. Интересно, что 101 страница в оригинальном файле была в виде джепега, все остальные, по видимому в тифе.

Replys - 26 , page: 1 2 All [new only]

Reply:

1 2 3 4 5 6 7 8 9

показывать это сообщение только модераторам
не делать ссылки активными

Username, Password:

Forum » Вопросы по сайту » OCR: различные технические моменты

Тему читают:

- user online

- user offline

All times are GMT 3 Hours. Hits today: 0
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no

Создай свой форум на сервисе Borda.ru
Текстовая версия