On-line: guests 0. In total there are: 0 [information..]
AuthorTopic





link post  Posted: 21.04.06 14:06. Post subject: OCR: различные технические моменты


Babek wrote: <...> ( в виде PDF файла ~85 mb.). <...>
Не представляю как Word сможет открыть файл такого размера.

Bewerr:
Размер файла говорит о том, что, скорее всего, это не пдф-документ со встроенными шрифтами и возможностью скопировать из него текст (например, в Adobe Reader эта функция есть начиная с версии 5.0), а пдф лишь как оболочка для инкорпорированных в него растровых изображений (сканов). Такие пдф-ы могут быть и бОльшими - мне встречались по 120-130 мегов.
Получаются они двумя путями: либо сканировали сразу в мультистраничный пдф посредством программного обеспечения, идущего в комплекте со сканером, либо отсканированные изображения потом преобразовали в пдф с помощью пдф-конвертера/редактора.
Проверить очень просто - пытаетесь скопировать текст или же ищете в пдф-е какое-либо слово (Ctrl+F). Если не получилось, то в этом случае требуется распознать текст.

Из пдф-а с текстом получить doc-файл можно двумя путями - пытаться конвертировать с помощью какого-либо проприетарного программного обеспечения сразу в doc, или же копировать текст в любой текстовый редактор.
Собственно doc-файл для публикации в интернете совершенно не нужен. На выходе нужен html-файл, текст для которого может быть подготовлен в формате rtf, в некоторых простых случаях - даже txt, можно работать и в других форматах, но это уже на любителя либо при особо специфичных распознаваемых материалах.

Если в книге есть рисунки или фотографии, то их обработка для публикации в интернете требует некоторых навыков. Это отдельная тема.


Спасибо: 0 
ProfileQuote Reply
Replys - 26 , page: 1 2 All [new only]





link post  Posted: 28.04.06 10:53. Post subject: Re:



 quote:
Из пдф-а с текстом получить doc-файл можно двумя путями - пытаться конвертировать с помощью какого-либо проприетарного программного обеспечения сразу в doc, или же копировать текст в любой текстовый редактор.


Есть еще третий вариант, между прочим - пдф, который чересчур умные создатели взяли да и защитили от изменений... в этом случае надобно сначала защиту снять...

М-м-м. Я что-то не понимаю сути проблемы. Есть pdf в 85 метров - типа распознанный 8) на деле получить из него нормальный документ не получается. Так вот, чем страдать и разыскивать всякие конверторы - проще распознать заново файнридером. Оч просто делается - просто извлекаются страницы. Извлекаются акробатом они в jpg, одна страница - один файл :) Дальнейшее, думаю, понятно.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 28.04.06 14:18. Post subject: pdf -> reader


новый ридер пдф сам понимает...

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 28.04.06 17:28. Post subject: Re:


Ну... вообще-то да, я чего-то погорячился. Вышеописанным способом я распознавал откровенно страшные сканы, зашитые в пдф - там после выдирания листов приходилось их в фотошопе обрабатывать :)
Но в данном случае - действительно, лишние движения получаются :)

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 30.04.06 01:07. Post subject: Re:


Reindeer wrote:

 quote:
Есть еще третий вариант, между прочим - пдф, который чересчур умные создатели взяли да и защитили от изменений... в этом случае надобно сначала защиту снять...



Ну уж это совершенно не проблема. Кроме случаев, когда сам пдф защищен паролем на открытие файла.
Ghostscript+Ghostgum -> pdfwrite. Эта связка просто игнорирует любые запреты Adobe (уж таков пдф, Adobe об этом тоже предупреждает любителей понаставить разные запреты в security settings файла)...

Из 85-мегового можно скопировать текст. Можно распознать заново по файлам-изображениям. Проблема не в этом, а в самой путанице, возникшей с появлением такой вот технологии смешения полураспознанного текста, инкорпорированных изображений и слегка раздутого (в мегах) файла в формате пдф.
Надругательство над правильно сделанным распознаванием, только и всего ;-).



Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.04.06 10:24. Post subject: Re:



 quote:
Ghostscript+Ghostgum -> pdfwrite. Эта связка просто игнорирует любые запреты Adobe (уж таков пдф, Adobe об этом тоже предупреждает любителей понаставить разные запреты в security settings файла)...


Я предпочитаю PDF Password Recovery от Элкома :)

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.05.06 15:57. Post subject: Re:


господа!
Простой до тупости (моей) вопрос: как отсканенные странички сохранять не в пдф, а в тиф или хотя бы в джпг?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.05.06 16:42. Post subject: Это смотря чем Вы сканируете


Я вообще фотоаппаратом фотографирую (и потом в FineReader 8). А он (фотоаппарат то есть) только TIF и JPG умеет, никаких PDF

Можно из какого-нибудь графического редактора сохранять, который сканировать может. Photoshop, например.


regards,
aeg


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 10.05.06 16:47. Post subject: Re:


мысль хорошая, тока чтобы фотошоп поставить надо начальство просить, а оно что-то не в духе...

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 10.05.06 21:43. Post subject: Re:


Макс wrote:

 quote:
Простой до тупости (моей) вопрос: как отсканенные странички сохранять не в пдф, а в тиф или хотя бы в джпг?




Макс wrote:

 quote:
мысль хорошая, тока чтобы фотошоп поставить надо начальство просить, а оно что-то не в духе...



Так у Вас на работе планшетный настольный сканер или какой-нибудь "многофункционально"-сетевой?
Если планшетник - тогда не понятно, в чем проблема. Настраиваете сканирование в файл, выбираете формат и процесс пошел.
Если сетевой - надо смотреть, если у него возможность TWAIN сканирования и доступен ли конкретно для Вашего рабочего компа TWAIN-драйвер. Если "да", то устанавливайте GIMP. (Это, пожалуй, единственный абсолютно бесплатный редактор безо всяких ограничений по пользованию на работе. Например, многими любимые IrfanView и XnView бесплатны только для домашнего пользования, а в случае установке на корпоративном компе попадают в разряд нелицензированного ПО.)
Если админ уже настроил для вашего компа "сканы только в пдф" - тут отдельная тема.

Словом, если хотите более четкого ответа, сформулируйте, пожалуйста, вопрос конкретнее.


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 11.05.06 22:58. Post subject: Re:


Полезная программа для выдергивания изображений из пдф-а.
http://www.computerra.ru/gid/rtfm/utility/267747/

Выдеригивает джепеги, а гифы преобразовывает в битмапы.
Вроде работоспособна.




Спасибо: 0 
ProfileQuote Reply





link post  Posted: 12.05.06 16:17. Post subject: Re:


Попробовал поиск в вышеупоминаемом пдф-е "Синей летописи".
"Книга 1" - в файле распознано как "К н и г а !"

На avaxhome по той же ссылке выложена недостающая часть, книги с 9 по 15, 20 мегов.
Попробовал на этом файле работоспособность PDF Image Extraction Wizard.
Изображения вытаскиваются нормально, bmp по 600-700 КБ.
В программе при работе с этим файлом замечен баг - без указания страниц вытащила только 23 страницы. Если указать страницы с 1 по 194, то вытаскивает всё. Интересно, что 101 страница в оригинальном файле была в виде джепега, все остальные, по видимому в тифе.


Спасибо: 0 
ProfileQuote Reply
Replys - 26 , page: 1 2 All [new only]
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 0
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no