Author | Topic |
|
Posted: 21.04.06 14:06. Post subject: OCR: различные технические моменты
Babek wrote: <...> ( в виде PDF файла ~85 mb.). <...> Не представляю как Word сможет открыть файл такого размера. Bewerr: Размер файла говорит о том, что, скорее всего, это не пдф-документ со встроенными шрифтами и возможностью скопировать из него текст (например, в Adobe Reader эта функция есть начиная с версии 5.0), а пдф лишь как оболочка для инкорпорированных в него растровых изображений (сканов). Такие пдф-ы могут быть и бОльшими - мне встречались по 120-130 мегов. Получаются они двумя путями: либо сканировали сразу в мультистраничный пдф посредством программного обеспечения, идущего в комплекте со сканером, либо отсканированные изображения потом преобразовали в пдф с помощью пдф-конвертера/редактора. Проверить очень просто - пытаетесь скопировать текст или же ищете в пдф-е какое-либо слово (Ctrl+F). Если не получилось, то в этом случае требуется распознать текст. Из пдф-а с текстом получить doc-файл можно двумя путями - пытаться конвертировать с помощью какого-либо проприетарного программного обеспечения сразу в doc, или же копировать текст в любой текстовый редактор. Собственно doc-файл для публикации в интернете совершенно не нужен. На выходе нужен html-файл, текст для которого может быть подготовлен в формате rtf, в некоторых простых случаях - даже txt, можно работать и в других форматах, но это уже на любителя либо при особо специфичных распознаваемых материалах. Если в книге есть рисунки или фотографии, то их обработка для публикации в интернете требует некоторых навыков. Это отдельная тема.
|
|
|
Replys - 26
, page:
1
2
All
[new only]
|
|
|
Posted: 22.04.06 09:41. Post subject: Re:
Bewerr Рисунков и фоторографий в книге нет. Поиск осуществлять получается. В какой формат переводить? html? rtf? txt? Мне кажется, что Вы имеет отношение к администрированию сайта, поэтому вопрос очевидно будет уместен к Вам, на сайте нет поиска по содержанию. Как осуществить ?
|
|
|
|
Posted: 22.04.06 10:42. Post subject: Re:
Babek'у: Согласование форматов - это Вам надо спросить у Thietmar'a. Нет, неверно. К администрированию сайта я не имею никакого отношения. Я обычный участник форума.
|
|
|
|
Posted: 22.04.06 10:46. Post subject: Re:
Babek> Рисунков и фоторографий в книге нет. Поиск осуществлять получается. Вы говорили про два пдф-а (3-4 и 85 мегов). Про какой идет речь сейчас?
|
|
|
|
Posted: 22.04.06 12:24. Post subject: Re:
Я говорю про тот который заинтересовал Thietmar-а - 85 мегов. ("Синяя летопись...")
|
|
|
|
Posted: 22.04.06 14:26. Post subject: Re:
768 страниц чистого текста не могут иметь размер 85 мегабайт. Максимум 5-6. Посмотрите внимательно - есть ли страницы, на которых текст не выделяется. Если в файл встроили хотя бы 10-15 страниц в несжатом tiff-e, 256 градаций серого, да с большим разрешением (400-600 dpi), то из-за них размер мог раздуться до 85 мегов. Иногда текст в пдф-ах OCR-щики дают именно текстом, но таблицы делают именно как встраиваемые изображения (для упрощения процесса распознавания). Есть ли в книге таблицы? Еще могут быть иероглифы - и если их вставляли как изображения, а не через использование китайских и т.п. фонтов, то это тоже могло привести к такому невероятно огромному размеру файла.
|
|
|
|
Posted: 24.04.06 10:41. Post subject: Может быть еще одна причина
Bewerr пишет: quote: | 768 страниц чистого текста не могут иметь размер 85 мегабайт |
| Иногда в одном PDF бывают изображения, продублированные наложенным сверху текстом. Adobe Acrobat (не Reader ) позволяет делать это, там есть встроенный OCR. Делают это, чтобы и оригинальный вид сохранить, и поиском текста в PDF пользоваться. regards, aeg
|
|
|
|
Posted: 24.04.06 11:37. Post subject: Re:
Babek А есть у вас какая-нибудь возможность переслать мне этот текст хотя бы в pdf ?
|
|
|
|
Posted: 24.04.06 11:47. Post subject: Re:
a_e_g: Иногда в одном PDF бывают изображения, продублированные наложенным сверху текстом. Если они так делают с pdf-ом, то они просто чудовища :-). Для таких вещей надо формат djvu использовать...
|
|
|
|
Posted: 24.04.06 11:59. Post subject: Они еще и лентяи :P
Bewerr пишет: quote: | Если они так делают с pdf-ом, то они просто чудовища :-). Для таких вещей надо формат djvu использовать... |
| Представьте, сколько надо работы, чтобы из PDF сделать Дежавю: 1) Вытащить картинки из PDF (не всегда это можно сделать) 2) Распознать текст (то же самое) 3) Запихать это в Djvu. regards, aeg
|
|
|
|
Posted: 24.04.06 15:24. Post subject: Re:
a_e_g wrote: quote: | Представьте, сколько надо работы, чтобы из PDF сделать Дежавю: |
| Представляю :-). Но я о другом - зачем ИМ понадобилось это запихивать в пдф. А тема вообще интересная. Уважаемый a_e_g , нет ли у Вас случайно образца такого пдф-а (картинка + текст)? Если есть, то могли бы Вы его выслать на dddv@pochta.ru ?
|
|
|
|
Posted: 24.04.06 15:38. Post subject: Re:
|
|
|
|
|
Posted: 24.04.06 18:07. Post subject: Должен где-то быть
Как найду - вышлю обязательно. regards, aeg
|
|
|
|
Posted: 24.04.06 19:08. Post subject: Re:
Предположение а_е_g об изображениях и тексте подтвердились. Однобитные сканы страниц + автоматически распознанный текст (русско-английский). Сделан из Файн-Ридера + Акробат 7.0. Разрешение - тут я имеющимися средствами не смог определить точно. Не меньше 300 dpi, возможно, что и 400-600. Текст с картинками в одном файле, судя по всему, разместили из-за фрагментов на санскрите и множества примечаний, с которыми решили не возиться. Часть примечаний (около корешка книги) не распознана, санскрит распознан латинскими буквами без спец.символов. Карты - качество сканов очень плохое. Выломать подручными средствами из такого файла картинки мне не удалось. Для уменьшения размера можно лишь выкопировать текст в txt и потом уменьшить размер графических изображений (примерно в два раза). Хотя зачем это делать? для "повременки" и 30 мегов скачать почти что нереально, а для выделенного - и 60 не проблема. А работы по распознаванию там будет много ...
|
|
|
|
Posted: 24.04.06 21:16. Post subject: Re:
Так может проще наново отсканить ?
|
|
|
|
Posted: 24.04.06 22:42. Post subject: Re:
Thietmar wrote: quote: | Так может проще наново отсканить ? |
| Нет, не надо. В сканах эта книга в целом приемлема, кроме листов с картами. в данном файле я лично(говорю только за себя, a_e_g в этом вопросе более информирован) впервые столкнулся с новшеством, разрекламированным здесь: http://www.abbyy.ru/finereader8/?param=45007 Цитата: "В ABBYY FineReader 8.0 усовершенствована технология обработки PDF-файлов. Как известно, некоторые PDF-файлы содержат так называемый текстовый слой, причём его содержимое может не полностью соответствовать видимому на экране документу. FineReader 8.0 предварительно анализирует содержимое файла и для каждого текстового блока принимает решение: распознать его или извлечь соответствующий текст из текстового слоя. Таким образом удаётся увеличить качество распознавания и в 2 раза сократить время обработки*." * - По сравнению с ABBYY FineReader 7.0; по результатам внутренних тестов. Далее мои предположения: Таким образом, FineReader сам решает, что ему удалось распознать, и потом делает следующее: Берется скан в известном tiff G4 (иначе не объяснить размер страницы в ~100 кБ). По результатам распознавания создается текстовый файл типа того, что получается, если скопировать распознанное FineReader'ом в текстовый редактор и сохранить в формате txt. Чистится "автоматом". Потом FineReader прикрепляет результат в txt к результату в tiff G4. Со всеми погрешностями и своевольными "принятыми решениями". Теперь эту хрень надо куда-то деть - и здесь они решили, что им подходит формат pdf. Конечно, зачем же использовать djvu - это еще надо будет объяснять всем, кто захочет потом файл посмотреть, про плагины к браузерам, просмотрщик Lizardtech... а Acrobat Reader уже практически на каждом компе установлен. На размер файла внимания не обращали - ну, подумаешь, 60 мегов вместо 20. Может, они и правы - только к переводу текста в эл.вид в нашем понимании это не относится. Они сделали суррогат, "безалкогольное пиво с резиновой женщиной". Нехорошие моменты: 1) Текст распознан не до конца - поиск по тексту не даст всех возможных результатов. Комментарий - а зачем тогда вообще эл.вид документа? Просто переслать сканы можно и в обычном многостраничном пдф-е, и в тифф-е. 2) Распознанный текст содержит ошибки, которые изготовитель файла и не думал корректировать. Скажем, в рассмотренном примере я успел заметить в таблицах в конце книги "Год"->"евин." вместо "Год"->"свин." - там речь о китайском календаре. 3) Для специалиста нераспознанный санскрит вообще может быть куда большим препятствием для пользования эл.копией документа, чем для обычного читателя - этот самый "год евиньи". 4) Размер файла примерно в два раза больше того, который бы получился при простом многостраничном тиффе. В серии экспериментов над вышеуказанным файлом мне удалось извлечь из него всю графику в виде 28-мегабайтного tiff G4. "Автоматический" текст составил бы еще мегабайт-другой; остальные 25-30 мегов - шелуха, чтобы "было удобно" + всякие штучки Adobe насчет security. Возможно, для оцифровки простых книг (и особенно содержащих множество таблиц) этот метод еще как-то подошел бы. На Западе или внутри большой корпорации - там, где есть возможность быстрой перекачки по сети файла в десятки мегов. Для России, с ее преобладающим соединением "по дозвону" - нет. Для исторических документов и серьезных исторических книг, содержащих зачастую текст на нескольких языках - нет. Для полноценного OCR'a такой файл по-прежнему лишь источник изображений, если не считать совершенно небольшого облегчения труда - первичное распознавание, занимающее лишь малую часть от затраченного в общем времени, все-таки уже как-то выполнено. Корректура остается необходимой. Bewerr.
|
|
|
|
Posted: 28.04.06 10:53. Post subject: Re:
quote: | Из пдф-а с текстом получить doc-файл можно двумя путями - пытаться конвертировать с помощью какого-либо проприетарного программного обеспечения сразу в doc, или же копировать текст в любой текстовый редактор. |
| Есть еще третий вариант, между прочим - пдф, который чересчур умные создатели взяли да и защитили от изменений... в этом случае надобно сначала защиту снять... М-м-м. Я что-то не понимаю сути проблемы. Есть pdf в 85 метров - типа распознанный 8) на деле получить из него нормальный документ не получается. Так вот, чем страдать и разыскивать всякие конверторы - проще распознать заново файнридером. Оч просто делается - просто извлекаются страницы. Извлекаются акробатом они в jpg, одна страница - один файл :) Дальнейшее, думаю, понятно.
|
|
|
|
Posted: 28.04.06 14:18. Post subject: pdf -> reader
новый ридер пдф сам понимает...
|
|
|
|
Posted: 28.04.06 17:28. Post subject: Re:
Ну... вообще-то да, я чего-то погорячился. Вышеописанным способом я распознавал откровенно страшные сканы, зашитые в пдф - там после выдирания листов приходилось их в фотошопе обрабатывать :) Но в данном случае - действительно, лишние движения получаются :)
|
|
|
|
Posted: 30.04.06 01:07. Post subject: Re:
Reindeer wrote: quote: | Есть еще третий вариант, между прочим - пдф, который чересчур умные создатели взяли да и защитили от изменений... в этом случае надобно сначала защиту снять... |
| Ну уж это совершенно не проблема. Кроме случаев, когда сам пдф защищен паролем на открытие файла. Ghostscript+Ghostgum -> pdfwrite. Эта связка просто игнорирует любые запреты Adobe (уж таков пдф, Adobe об этом тоже предупреждает любителей понаставить разные запреты в security settings файла)... Из 85-мегового можно скопировать текст. Можно распознать заново по файлам-изображениям. Проблема не в этом, а в самой путанице, возникшей с появлением такой вот технологии смешения полураспознанного текста, инкорпорированных изображений и слегка раздутого (в мегах) файла в формате пдф. Надругательство над правильно сделанным распознаванием, только и всего ;-).
|
|
|
|
Posted: 30.04.06 10:24. Post subject: Re:
quote: | Ghostscript+Ghostgum -> pdfwrite. Эта связка просто игнорирует любые запреты Adobe (уж таков пдф, Adobe об этом тоже предупреждает любителей понаставить разные запреты в security settings файла)... |
| Я предпочитаю PDF Password Recovery от Элкома :)
|
|
|
|
Posted: 10.05.06 15:57. Post subject: Re:
господа! Простой до тупости (моей) вопрос: как отсканенные странички сохранять не в пдф, а в тиф или хотя бы в джпг?
|
|
|
|
|
Posted: 10.05.06 16:42. Post subject: Это смотря чем Вы сканируете
Я вообще фотоаппаратом фотографирую (и потом в FineReader 8). А он (фотоаппарат то есть) только TIF и JPG умеет, никаких PDF Можно из какого-нибудь графического редактора сохранять, который сканировать может. Photoshop, например. regards, aeg
|
|
|
|
Posted: 10.05.06 16:47. Post subject: Re:
мысль хорошая, тока чтобы фотошоп поставить надо начальство просить, а оно что-то не в духе...
|
|
|
|
Posted: 10.05.06 21:43. Post subject: Re:
Макс wrote: quote: | Простой до тупости (моей) вопрос: как отсканенные странички сохранять не в пдф, а в тиф или хотя бы в джпг? |
| Макс wrote: quote: | мысль хорошая, тока чтобы фотошоп поставить надо начальство просить, а оно что-то не в духе... |
| Так у Вас на работе планшетный настольный сканер или какой-нибудь "многофункционально"-сетевой? Если планшетник - тогда не понятно, в чем проблема. Настраиваете сканирование в файл, выбираете формат и процесс пошел. Если сетевой - надо смотреть, если у него возможность TWAIN сканирования и доступен ли конкретно для Вашего рабочего компа TWAIN-драйвер. Если "да", то устанавливайте GIMP. (Это, пожалуй, единственный абсолютно бесплатный редактор безо всяких ограничений по пользованию на работе. Например, многими любимые IrfanView и XnView бесплатны только для домашнего пользования, а в случае установке на корпоративном компе попадают в разряд нелицензированного ПО.) Если админ уже настроил для вашего компа "сканы только в пдф" - тут отдельная тема. Словом, если хотите более четкого ответа, сформулируйте, пожалуйста, вопрос конкретнее.
|
|
|
|
Posted: 11.05.06 22:58. Post subject: Re:
|
|
|
|
Posted: 12.05.06 16:17. Post subject: Re:
Попробовал поиск в вышеупоминаемом пдф-е "Синей летописи". "Книга 1" - в файле распознано как "К н и г а !" На avaxhome по той же ссылке выложена недостающая часть, книги с 9 по 15, 20 мегов. Попробовал на этом файле работоспособность PDF Image Extraction Wizard. Изображения вытаскиваются нормально, bmp по 600-700 КБ. В программе при работе с этим файлом замечен баг - без указания страниц вытащила только 23 страницы. Если указать страницы с 1 по 194, то вытаскивает всё. Интересно, что 101 страница в оригинальном файле была в виде джепега, все остальные, по видимому в тифе.
|
|
|
Replys - 26
, page:
1
2
All
[new only]
|
|