On-line: guests 0. In total there are: 0 [information..]
AuthorTopic



link post  Posted: 28.07.07 19:59. Post subject: Источники-оригиналы


Появилась такая идея. Почему бы не создать сайт, на котором будут храниться средневековые источники на оригинальных языках? Речь идет даже не об OCR. Было бы хорошо (даже предпочтительно, по-моему) иметь копии книг в форматах djvu, pdf. В последнее время в интернете появилось немало таких книг-первоисточников. Но это лишь крупица. Да и хранится это все на разных сайтах. Приходится бегать по интернету в поисках того или иного текста. Конечно, бумажный вариант всегда лучше, но для этого надо иметь доступ в хорошую библиотеку, но не у всех есть такая возможность. Я довольно часто заказываю книги по межбиблиотечному обмену, но каждый такой заказ обходится мне в $30, что на самом деле не так уж и много, учитывая, что книги порой приходят из-за океана. Как вам такая идея, господа историки? Есть предложения, идеи?

Спасибо: 0 
ProfileQuote Reply
Replys - 63 , page: 1 2 3 4 5 All [new only]





link post  Posted: 02.08.07 01:36. Post subject: Re:


А меня университетская библиотека просто отфутболила с формулировкой "все равно когда-нибудь кто-нибудь это сделает".

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 08:24. Post subject: Re:


Да, лучше просто баннерами обменяться с ними :)

Неясно, нам-то какая польза от такого сотрудничества? Если бы они могли и умели, то давно бы сделали. Тут надо не только с начальством говорить. Оно-то может и заинтересуется, отправит идею вниз, где ей благополучно отфутболят.

Вот привлечь кого-нибудь из библиографов, это мысль. Может у Лены Мельниковой bgraf-а позаимствовать?


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 08:36. Post subject: Re:


Да скорее всего они и не поняли, что от них требуется и что они получат взамен. Отсканировать и выложить тексты - не велика премудрость. Библиотекам надо что-то уже готовое показывать. К новому проекту они интереса не проявят, только к развитию уже процветающего 8)


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 16:32. Post subject: Re:


Thietmar
В конечном итоге все сводится к тому, что ты делаешь тексты а библиотека пишет на своем сайте что "сотрудничает" с тобой.
Если не считать того, что библиотека предоставляет рабочую "площадку" (часть сайта, канал доступа, техобслуживание сайта), то выглядит именно так.
Но тогда надо определиться - а что вообще требуется в данном случае? Из предыдущего разговора я понял так, что нужна именно "площадка" плюс доброжелательное сотрудничество с ее хозяевами.

a_e_g
Да скорее всего они и не поняли, что от них требуется и что они получат взамен.
Собственно с этого надо и планировать обсуждение: "Мы предлагаем вам следующую идею и рабочий материал для нее. Вы получите от ее реализации то-то и то-то". Иначе же любой разговор в тупик зайдет :-).




Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 17:38. Post subject: Re:


Shangry пишет:

 quote:
Собственно с этого надо и планировать обсуждение: "Мы предлагаем вам следующую идею и рабочий материал для нее. Вы получите от ее реализации то-то и то-то". Иначе же любой разговор в тупик зайдет :-).


Именно так я и сделал. Я даже заручился поддержкой нескольких профессоров, но успеха не имел. Конечно, может, в других библиотеках идея создания сайта с источниками приживется.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 18:24. Post subject: Re:


Shangry пишет:

 quote:
В конечном итоге все сводится к тому, что ты делаешь тексты а библиотека пишет на своем сайте что "сотрудничает" с тобой.
Если не считать того, что библиотека предоставляет рабочую "площадку" (часть сайта, канал доступа, техобслуживание сайта), то выглядит именно так.
Но тогда надо определиться - а что вообще требуется в данном случае? Из предыдущего разговора я понял так, что нужна именно "площадка" плюс доброжелательное сотрудничество с ее хозяевами.



Мне не нужна была "площадка". Мне нужны были сканы книг.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 03.08.07 15:15. Post subject: Re:


Сколько я понял предыдущее обсуждение:

Carlos de Almansa : "В последнее время в интернете появилось немало таких книг-первоисточников. Но это лишь крупица. Да и хранится это все на разных сайтах. Приходится бегать по интернету в поисках того или иного текста."

Thietmar: "У меня тоже есть немало отсканированных источников на иностранных языках. И исследований на них же - стирать жалко а пользоваться исследоваиями некому. Я бы эти исследования с удовольствием кому-нибудь слил.", "Проблема именно - где выставить, чтобы они там были упорядочены и - что самое главное - систематизированы."

заметная часть проблемы - это именно поиск места, где "складировать" уже имеющееся. После чего уже можно думать и о пополнении коллекции, т.е. о новых сканах. Именно в этом смысле я и высказался про какой-нибудь библиотечный сайт, как вполне естественное место для подобной коллекции.

Попытался даже забросить удочку начальству" "А не стоит ли у нас?". Но выяснилось, что официальная позиция нашей библиотеки - выкладывать литературу только на русском. Ну плюс еще пара-другая языков бывших республик - из относительно распостраненных
Так что не вышло :-(.

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 03.08.07 18:30. Post subject: Re:


Shangry пишет:

 quote:
заметная часть проблемы - это именно поиск места, где "складировать" уже имеющееся.



Это очень заметная часть проблемы. Особенно если учесть, что, чем меньше люди делают, тем выше у них требования к результатам труда других.
Я не удивлюсь, если те же библиотеки одним из условий поставят "600 dpi, greyscale" или "сканировать книгу полностью, включая обложку", даже если она появилась у книги спустя 50 лет. Требования к форматам, обработке. Как будто нельзя читать в 150 dpi или обрабатывать скан в B/W, или читать сам текст без обложки.
Трудно с ними наладить сотрудничество, даже в перспективе. На сегодня - практически невозможно.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 05.08.07 09:47. Post subject: Это не проблема :)


Разве сложно прилепить к сканам обложку? Или искусственно поставить любое разрешение при помощи Файнридера? Как можно без цифровой подписи такое обнаружить?


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 05.08.07 13:16. Post subject: Re:


a_e_g пишет:

 quote:
Разве сложно прилепить к сканам обложку?



Несложно, но это если она есть в наличии.

a_e_g пишет:

 quote:
Или искусственно поставить любое разрешение при помощи Файнридера?



Да хоть с помощью чего угодно. Все в конечном итоге будет зависеть от квалификации принимающих работу

Но я изначально не приемлю такую ущербную позицию - "вот мы, и соизвольте мол делать так и так". Пример - гугльбукс. Читали их требования к сканам? При этом сотрудничают они только с официальными библиотеками. А что они получают в результате?
Сканируется всё абы как, неизвестно кем и бессовестно криво. Лишь редкие универы сканируют как надо. Совесть есть у Стокгольмской библиотеки (королевской?), у Гуверовского универа. Мичиган заметно кривее, но все же их сканы еще как-то терпимы...
Есть там рекордсмен по криворукости и раззвездяйству - стэнфордский университет. К величайшему сожалению, они же и рекордсмены по кол-ву отсканированных книг на русском. В отдельных книгах из-за чудовищных ошибок при сканировании (или фотосканировании) из 500-600 страниц через фильтры живыми удалось пробраться от силы сотне-двум. И переделывать никто не будет. Поставили "птицу" - книга сделана, и пошли дальше. А сколько отдельных мутных страниц, срезанных полей...

И попробуйте при этом обратиться к гугльбуксу с предложением взять сканы в 300 dpi! Сама постановка вопроса - сотрудничество только с официальными организациями - по умолчанию подразумевает, что все "частники" априори криворуки и безалаберны, и никакого качества от них не дождешься. А на деле всё чуть ли не зеркально противоположно.


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 05.08.07 14:25. Post subject: Re:


Да, Гугльбокс действительно кривой. Хотя ручками обычно можно всё поправить. Очень часто у них лежит по несколько экземпляров одного и того же скана и собрать из них нормальный в Акробате можно. Как рудник ГБ вполне годится :)

С классификацией у них слабовато. И вроде бы списка обновлений нет (что изменено и что впервые выложено).

А требования 600 dpi вполне понятны. Они хотели полную замену бумажной книги. Чтобы и фактура бумаги была видна, и водяные знаки. Но увы, часто и текст невозможно читать - отсутствуют/перепутаны страницы, плохо отсканировано. И распознанные тексты (используются при поиска) они на старых изданиях не вычитывают. А новые у них под копирайтом и не полностью.

В общем, я у Карлоса на форуме кое-что написал, что надо делать. Присоединяйтесь :)

regards,
aeg


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 05.08.07 18:08. Post subject: Re:


Shangry пишет:

 quote:
Есть еще один вариант: соблазнить на такую выкладку одну из больших библиотек.



Carlos de Almansa пишет:

 quote:
Идея, конечно, хорошая. Я даже пробовал, но без успехов.




Carlos de Almansa пишет:

 quote:
А меня университетская библиотека просто отфутболила с формулировкой "все равно когда-нибудь кто-нибудь это сделает".



Как вы не понимаете - книги на сайтах это смерть библиотек, а кому же хочется ускорять собственную смерть?

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 05.08.07 19:31. Post subject: Re:


a_e_g пишет:

 quote:
Да, Гугльбокс действительно кривой. Хотя ручками обычно можно всё поправить. Очень часто у них лежит по несколько экземпляров одного и того же скана и собрать из них нормальный в Акробате можно. Как рудник ГБ вполне годится :)

С классификацией у них слабовато. И вроде бы списка обновлений нет (что изменено и что впервые выложено).

А требования 600 dpi вполне понятны. Они хотели полную замену бумажной книги. Чтобы и фактура бумаги была видна, и водяные знаки. Но увы, часто и текст невозможно читать - отсутствуют/перепутаны страницы, плохо отсканировано. И распознанные тексты (используются при поиска) они на старых изданиях не вычитывают. А новые у них под копирайтом и не полностью.



У них, ЕМНИП, требование 400 dpi. Несколько вариантов - к сожалению, далеко не всегда. Из 1500 скачанных книг по два варианта хорошо если с полсотни наберется.
По поводу фактуры и т.п. - они жмут пдф-ы чем-то подобным алгоритму конвертации djvu, и фон там размывается. Распознают они чудовищно. Текст сильно смазывают и потом делают чудовищный деспеклинг - иногда буквы "н" словно две палки, без перемычки...
Словом, а ну их... рудник - это точно.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 05.08.07 23:05. Post subject: Re:


Игорь пишет:

 quote:
Как вы не понимаете - книги на сайтах это смерть библиотек, а кому же хочется ускорять собственную смерть?


Ну, есть правда в Ваших словах. Хотя BNF вон какой проект забацала. Сканы, правда, паршивые. Но зато какой размах! Впрочем, чем ждать милости от библиотек, лучше самому начать работу. Можно, конечно, скачать или сделать самому копии книг и никому их не давать, но я не придерживаюсь этой точки зрения.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 06.08.07 08:33. Post subject: Re:


С библиотеками плохо ещё дело иметь, так как они из-за копирайта выкладывают только очень старые издания. Хотя это можно было обойти, выложив не полную копию современного издания, а текст (причём обязательно распознанный) отдельно, историко-филологический аппарат и историографические работы - отдельно.

В старых изданиях текст обычно приемлем, а вот комментарии могут и устареть.



Спасибо: 0 
ProfileQuote Reply
Replys - 63 , page: 1 2 3 4 5 All [new only]
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 11
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no