On-line: guests 0. In total there are: 0 [information..]
AuthorTopic



link post  Posted: 28.07.07 19:59. Post subject: Источники-оригиналы


Появилась такая идея. Почему бы не создать сайт, на котором будут храниться средневековые источники на оригинальных языках? Речь идет даже не об OCR. Было бы хорошо (даже предпочтительно, по-моему) иметь копии книг в форматах djvu, pdf. В последнее время в интернете появилось немало таких книг-первоисточников. Но это лишь крупица. Да и хранится это все на разных сайтах. Приходится бегать по интернету в поисках того или иного текста. Конечно, бумажный вариант всегда лучше, но для этого надо иметь доступ в хорошую библиотеку, но не у всех есть такая возможность. Я довольно часто заказываю книги по межбиблиотечному обмену, но каждый такой заказ обходится мне в $30, что на самом деле не так уж и много, учитывая, что книги порой приходят из-за океана. Как вам такая идея, господа историки? Есть предложения, идеи?

Спасибо: 0 
ProfileQuote Reply
Replys - 63 , page: 1 2 3 4 5 All [new only]







link post  Posted: 28.07.07 22:28. Post subject: Re:


Целиком "за".
Вижу два пути реализации такого проекта:
1) Делаем на форуме ветку и выкладываем в ней все линки на оригинальные источники. Кто-то один берет на себя координацию деятельности и в случае, если линк "умер", выкладывает источник повторно на свой премиум-аккаунт на рапиде. Стоимость реализации = стоимости премиума + время. К тому же рапида иногда почему-то удаляет файлы со сканами тех книг, которые перешли в общественное достояние. Жаловаться бесполезно. Иногда по ошибке может заодно и прикрыть аккаунт. Такое случается крайне редко, но все же бывает.
2) Свой физический сервер. Я бы такой вариант не рассматривал, поскольку это будет стоить долларов 300 в месяц (размещение+техобслуживание+аммортизация+настройка).

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 28.07.07 22:51. Post subject: Re:


Bewerr пишет:

 quote:
Делаем на форуме ветку и выкладываем в ней все линки на оригинальные источники



Я когда-то пытался сделать что-то подобное:
http://vostlit.borda.ru/?1-2-0-00000028-000-0-0-1176297062

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 00:08. Post subject: Re:


2Bewerr

А третий вариант? Создается сайт, на котором ничего храниться не будет, а будут ссылки на файлообменники. Но сайт должен поддерживать поиск. Примером может послужить хорошо известный Вам натахаус.ру.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 00:09. Post subject: Re:


2Thietmar

Такой вариант хорош в качестве промежуточного. Кстати, если мы уж заговорили о сайтах, то, если не секрет, во сколько обходится Вам содержание Востлита?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 02:23. Post subject: Re:


Carlos de Almansa пишет:

 quote:
во сколько обходится Вам содержание Востлита?



То есть ? Сколько стоит хостинг или суммарные траты ?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 08:39. Post subject: Re:


Ага. Хостинг.

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 29.07.07 10:33. Post subject: Re:


Thietmar пишет:

 quote:
Я когда-то пытался сделать что-то подобное:
http://vostlit.borda.ru/?1-2-0-00000028-000-0-0-1176297062



Знаю. Но рук одного человека не хватает на всё, поэтому требуется доброволец, который занимался бы только линками.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 11:31. Post subject: Re:


Carlos de Almansa пишет:

 quote:
Ага. Хостинг.



Хостинг стоит 88 долларов в год. Но хостинг - одна из самых незначительных трат...

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 12:20. Post subject: Re:


А какие есть еще траты? И как это отражается на кошельке?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 13:41. Post subject: Re:


Carlos de Almansa пишет:

 quote:
А какие есть еще траты? И как это отражается на кошельке?



Интернет - 44 евра/месяц, читательский 25/год, Сканер 90/единоразово, ксерокс книг которые не дают на дом - по разному, минимум 6 центов/копия. На кошельке это сказывается по-разному, но всегда отрицательно.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 14:31. Post subject: Re:


Ссылки на другие сайты - это не всегда хорошо. Например, на Books Google очень много таких книг в PDF, но у них обычно нет оглавлений в Bookmarks, что не очень удобно. Да и нумерация страниц в Pdf и в бумажном варианте не соответствуют: в оригинале часто предисловие нумеруется римскими цифрами, а текст источника - арабскими. Так что лучше их скачать, привести в приличный вид и перезалить в другое место.
Неплохо бы иметь и в текстовом виде (HTML или XML), так как при цитировании проще копировать, чем возиться с отсканированным и нераспознанным PDF.
А начать можно с создания рубрик и их заполнения названиями и (если есть) ссылками на тексты. Можно русской версией Википедии воспользоваться - заодно и ссылки сделать на статью о сайте ВЛ :)


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 14:40. Post subject: Re:


И не только средневековые, но и античные. Античные латинские тексты в формате RTF у меня уже готовы - примерно мегабайт 110 получилось, сейчас делаю греческие (античные и византийские). А средневековые латинские оставил на потом, их очень много и требуется OCR. Пожалуй, сканировать почти не придётся - большая часть текстов у меня есть, я проверял по списку.


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 14:52. Post subject: Re:


У меня тоже есть немало отсканированных источников на иностранных языках. И исследований на них же - стирать жалко а пользоваться исследоваиями некому. Я бы эти исследования с удовольствием кому-нибудь слил.

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 29.07.07 16:03. Post subject: Re:


С гугльбукса одних исследований и источников на русском по периоду до 19 века набралось уже около 20 гигов.
Сколько будет, если добавить туда иностранные - подумать страшно... измерять придется в терабайтах.
Правда, если оставить только источники и исследования, содержащие источники в виде приложений, то получится меньше. По крайней мере сопоставимо с размером харда в 75-150 гигов.
Сосканировать тоже можно довольно много, был бы спрос и возможность разместить где-либо.

Установка и содержание мало-мальски приличного сервера будет стоить:
Единоразовая плата за сервер - примерно 1000-1500 долларов, если считать сервером какой-нибудь простенький десктоп на Conroe + миррор из двух WD-шек Raptor + памяти 4-8 GB.
Ежемесячный хостинг - 100-200 долларов в зависимости от страны расположения.
Первоначальная настройка ОС и установка готового движка - зависит от расценок программера.
Сам движок сайта - ??? зависит от того, есть ли что-то готовое, сколько надо вложить труда в переделку под конкретные нужды проекта - от "0" до 2000-5000 тыс.долларов. Самая расплывчатая строка сметы.
Ежемесячная техподдержка - энтузиаст, разместивший сервер, периодически ездит к нему и меняет вышедшие из строя харды и другое железо.

Т.е. это все дорого и хлопотно, пока нет нефтяной вышки.
Проще складировать линки на рапиду. Тот же гугльбукс, кстати, не имеет ничего против использования книг в некорыстных целях, что нас полностью устраивает.


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 17:20. Post subject: Re:


Bewerr пишет:

 quote:
Проще складировать линки на рапиду.



Вот тебе и сольем исследования..

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 29.07.07 19:15. Post subject: Re:


Thietmar пишет:

 quote:
Вот тебе и сольем исследования..



А у меня такого аккаунта нету

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 29.07.07 19:16. Post subject: Re:


Без приколов - такой аккаунт надо купить тому, кто займется координацией работы по сбору линков. Сам собирает, сам контролирует, сам перезаливает "умершие" линки на рапиду.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 20:36. Post subject: Рапида - не самый удачный вариант


Её слишком часто приходится перезаливать. Да и ограничения там без премиума по скачиванию - приходится их обходить.
Лучше подобрать что-то другое.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 21:39. Post subject: Re:


Господа, я перечитал все сообщения. Думаю, сделать можно таким образом. Открываем сайт (если стоимость его будет такой же, как и стоимость Востлита, то могу взять это на себя), даём ссылки на рапиду. Да, я согласен, что это порой неудобно, но это лучший вариант из имеющихся, ибо свой сервер я не потяну по деньгам. Что касается OCR, то я, конечно, согласен с a_e_g, что rtf (или doc, html) лучше djvu или pdf, но это дело практически неподъемное, да и доверять OCR не могу - иди знай, кто этим занимался, как он вычитал текст. Это же не русский текст, где мы легко поймем, что имеем перед собой описку. Думаю, тут предпочтительнее копии книги "так, как они" (т.е. djvu или pdf). Проблема заключается в том, что надо найти человека, который построит сайт. Примером может послужить, как я уже писал, natahaus.ru, поддерживающий поиск и позволяющий сортировать материал.

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 29.07.07 21:48. Post subject: Re:


a_e_g пишет:

 quote:
Лучше подобрать что-то другое.



По мне так хоть линки на все существующие файлообменники. Хватило бы времени на заливку...

a_e_g пишет:

 quote:
Её слишком часто приходится перезаливать.



Аккаунт премиум? Почему часто?


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 29.07.07 21:49. Post subject: Re:


Carlos de Almansa пишет:

 quote:
Примером может послужить, как я уже писал, natahaus.ru, поддерживающий поиск и позволяющий сортировать материал.



Такой движок как раз и потянет как минимум на 2-3 тыс. долларов. Strori меня поправит, если я написал слишком маленькую сумму.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 21:57. Post subject: Re:


Bewerr пишет:

 quote:
Такой движок как раз и потянет как минимум на 2-3 тыс. долларов. Strori меня поправит, если я написал слишком маленькую сумму.


Боюсь показаться тупым, но почему так дорого? Что там такого крутого?

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 29.07.07 22:46. Post subject: Re:


Carlos de Almansa пишет:

 quote:
Боюсь показаться тупым, но почему так дорого? Что там такого крутого?



500-1000 долларов - это стоимость обычного красивого сайта, рекламирующего какой-нибудь проект по недвижимости. HTML+Flash
Здесь требуется:
- База данных (т.н. движок)
- Юзерская форма для отсылки информации
- Админка для принимающего информацию (может быть детерминированным вариантом админки супервизора)
- Админка для супервизора
- Новостные ленты
- ЛС
- - - Тестирование !!!
и Форум (другая БД + интерфейс) - можно брать какой-то готовый.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 29.07.07 23:42. Post subject: Re:


Bewerr пишет:

 quote:
А у меня такого аккаунта нету



Нет - так будет. Главное - поставить себе цель.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 08:45. Post subject: Re:


Вполне потянет на такую сумму. Плюс дизайн и плюс обслуживание, его точно будет делать тот же человек что писал движок. Чего-то где-то поменять в коде - платите. Кроме того - такой проект это прежде всего база данных. Кому-то надо ее вести. Времени и так не фонтан, плюс трафик. Это надо отдельного человека сажать и платить ему бабло. Как зарплату. Кто такое потянет?
А если что-то простенькое, там БД+поиск - это можно и тут сделать. Если опять же кто-то будет это вести и этим заниматься. БД надо заполнить чем-то, мы тут-то плаваем, по востлиту базу сделать - проблема.

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 30.07.07 08:52. Post subject: Re:


Thietmar пишет:

 quote:
Нет - так будет. Главное - поставить себе цель.



Что значит "будет"? У кого? Мне купят такой аккаунт и железной рукой погонят к счастью? Я же не гекатонхейр и не могу заниматься одновременно столь обширным кругом дел и обязанностей ...

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 09:59. Post subject: Re:


Bewerr пишет:

 quote:
Что значит "будет"? У кого? Мне купят такой аккаунт и железной рукой погонят к счастью? Я же не гекатонхейр и не могу заниматься одновременно столь обширным кругом дел и обязанностей ...



Тогда пропадут пропадом высказанные выше прекрасные теории, что надо делать и где складировать. Кому этим еще заняться..

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 13:03. Post subject: Re:


2Bewerr

А если отказаться от всего этого (или почти всего) и взять готовый движок (MediaWiki, например)?

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 13:23. Post subject: Re:


Thietmar пишет:

 quote:
Тогда пропадут пропадом высказанные выше прекрасные теории, что надо делать и где складировать. Кому этим еще заняться..



А у Вас есть список того, что уже отсканировано? Я мог бы взяться за некоторые вещи. Особенно первоисточники. Правда, я бы переводил их в djvu, OCR не стал бы делать. Зато ничего бы не пропало.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 14:08. Post subject: Re:


Carlos de Almansa пишет:

 quote:
А у Вас есть список того, что уже отсканировано? Я мог бы взяться за некоторые вещи. Особенно первоисточники. Правда, я бы переводил их в djvu, OCR не стал бы делать. Зато ничего бы не пропало.



Перевести их в дежавю через дежавю-плагин - не проблема. Проблема именно - где выставить, чтобы они там были упорядочены и - что самое главное - систематизированы. Это при количестве источников более чем сто станет огромной проблемой. Где вы хотите их размещать ?

Список вот: http://vostlit.info/common/Vostlit_estj.xls
Там указаны и латиноязычные источники.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 16:20. Post subject: Re:


Bewerr пишет:

 quote:
По мне так хоть линки на все существующие файлообменники. Хватило бы времени на заливку...



Без зеркала всё равно не обойтись. Хотя бы еще 1-2 к Рапиде.

Bewerr пишет:

 quote:
Аккаунт премиум? Почему часто?



Премиум нет, конечно :)


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 16:30. Post subject: Re:


Carlos de Almansa пишет:

 quote:
Что касается OCR, то я, конечно, согласен с a_e_g, что rtf (или doc, html) лучше djvu или pdf, но это дело практически неподъемное, да и доверять OCR не могу - иди знай, кто этим занимался, как он вычитал текст. Это же не русский текст, где мы легко поймем, что имеем перед собой описку.



Греческие-латинские достаточно надёжные RTF (можно и HTML сделать) у меня есть. А преобразовать их в PDF не проблема.

Лучше и то, и другое. PDF/Дежавю - обязательно, а RTF/HTML - если есть приличный (вычитанный) текст - и непременно с указанием источника (какое издание).

regards,
aeg


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 16:40. Post subject: Заполнение БД


Список первоисточников у меня есть (какие названия вообще существуют, а не то, что у меня есть). Надо их только по регионам, периодам, жанрам распределить. Вероятно, потребуются еще краткие описания источников. И ссылки на переводы, в том числе на ВЛ.

Для части названий я текстов ещё не нашёл. Можно будет пока поставить одни названия, без ссылки, чтобы понятно было, что ещё искать.

Найдём, чем заполнить.

regards,
aeg


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 18:26. Post subject: Re:


a_e_g пишет:

 quote:
Лучше и то, и другое. PDF/Дежавю - обязательно, а RTF/HTML - если есть приличный (вычитанный) текст - и непременно с указанием источника (какое издание).



Согласен. Это было бы идеальным решением.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 18:31. Post subject: Re:


Thietmar пишет:

 quote:
Проблема именно - где выставить, чтобы они там были упорядочены и - что самое главное - систематизированы. Это при количестве источников более чем сто станет огромной проблемой. Где вы хотите их размещать ?


Это действительно проблема. Надо думать. У меня тоже накопилось немало текстов. Хотелось бы поделиться, да так, чтоб это не пропало зря. Иными словами, нужно специальное место для этого. А систематизация источников - это отдельная проблема. Мне кажется, тут мало систематизации по сериям и томам. Надо думать.


 quote:
Список вот: http://vostlit.info/common/Vostlit_estj.xls
Там указаны и латиноязычные источники.


Список впечатляет. Жаль, если это пропадет.


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 30.07.07 22:31. Post subject: Re:


Carlos de Almansa пишет:

 quote:
Список впечатляет. Жаль, если это пропадет.



Конечно жаль.. Самый простой вариант - купить премиум аккаунт на рапиде (80 долл/год) заливать туда файлы, а ссылки ставить на отдельном сайте например на народ.ру (0 долл/год). Все остальное, вся сортировка, систематизация и т.д./т.п - придут потом. В процессе.

Это я к тому, что теоретические выкладки о движках и серверах можно вести вечно.

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 31.07.07 09:11. Post subject: Re:


Thietmar пишет:

 quote:
Тогда пропадут пропадом высказанные выше прекрасные теории, что надо делать и где складировать. Кому этим еще заняться..



Тому, кто имеет к этому тягу и соответствующие знания. А я из латыни лишь пару крылатых фраз знаю плюс несколько наваний лекарств

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 31.07.07 09:13. Post subject: Re:


Thietmar пишет:

 quote:
Конечно жаль.. Самый простой вариант - купить премиум аккаунт на рапиде (80 долл/год) заливать туда файлы, а ссылки ставить на отдельном сайте например на народ.ру (0 долл/год). Все остальное, вся сортировка, систематизация и т.д./т.п - придут потом. В процессе.



Что и предлагалось с самого начала как, пожалуй, единственное реальное решение.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 31.07.07 13:00. Post subject: Re:


Bewerr пишет:

 quote:
Тому, кто имеет к этому тягу и соответствующие знания.


Таких, думаю, найдется несколько человек. Было бы время. :-(

Bewerr пишет:

 quote:
А я из латыни лишь пару крылатых фраз знаю плюс несколько наваний лекарств


Выучив и осознав IN VINO VERITAS, можно смело говорить, что главное уже позади. :-)

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 31.07.07 14:44. Post subject: Re:


Carlos de Almansa пишет:

 quote:
IN VINO VERITAS



Этот этап познания латыни уже пройден.

Сейчас актуально: errare humanum est, stultum est in errore perseverare


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 31.07.07 23:53. Post subject: Re:


Carlos de Almansa пишет:

 quote:
Таких, думаю, найдется несколько человек. Было бы время



Остается только ждать, пока они найдутся.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 01.08.07 18:28. Post subject: Re:


Есть еще один вариант: соблазнить на такую выкладку одну из больших библиотек. В Москве вполне можно подкинуть идею Иностранке (тем паче, что это ее "родной" профиль), Историчке или МГУшникам. Если у кого-то есть контакты с библиотекарями или их начальством, стоило бы попробовать.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 01.08.07 19:00. Post subject: Re:


Shangry пишет:

 quote:
Есть еще один вариант: соблазнить на такую выкладку одну из больших библиотек. В Москве вполне можно подкинуть идею Иностранке (тем паче, что это ее "родной" профиль), Историчке или МГУшникам. Если у кого-то есть контакты с библиотекарями или их начальством, стоило бы попробовать.


Идея, конечно, хорошая. Я даже пробовал, но без успехов. Да и зависеть от кого-то не хочется.

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 01.08.07 22:34. Post subject: Re:


Carlos de Almansa пишет:

 quote:
Идея, конечно, хорошая. Я даже пробовал, но без успехов. Да и зависеть от кого-то не хочется.



Всё верно. И насчет идеи, и насчет безрезультатности подобных попыток, и насчет зависимости от них.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 00:46. Post subject: Re:


Shangry пишет:

 quote:
соблазнить на такую выкладку одну из больших библиотек. В Москве вполне можно подкинуть идею Иностранке (тем паче, что это ее "родной" профиль), Историчке или МГУшникам. Если у кого-то есть контакты с библиотекарями или их начальством, стоило бы попробовать.



Я пробовал. Это мертворожденная идея. В конечном итоге все сводится к тому, что ты делаешь тексты а библиотека пишет на своем сайте что "сотрудничает" с тобой. С таким же успехом я могу делать тексты и без этой записи о сотрудничестве.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 01:36. Post subject: Re:


А меня университетская библиотека просто отфутболила с формулировкой "все равно когда-нибудь кто-нибудь это сделает".

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 08:24. Post subject: Re:


Да, лучше просто баннерами обменяться с ними :)

Неясно, нам-то какая польза от такого сотрудничества? Если бы они могли и умели, то давно бы сделали. Тут надо не только с начальством говорить. Оно-то может и заинтересуется, отправит идею вниз, где ей благополучно отфутболят.

Вот привлечь кого-нибудь из библиографов, это мысль. Может у Лены Мельниковой bgraf-а позаимствовать?


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 08:36. Post subject: Re:


Да скорее всего они и не поняли, что от них требуется и что они получат взамен. Отсканировать и выложить тексты - не велика премудрость. Библиотекам надо что-то уже готовое показывать. К новому проекту они интереса не проявят, только к развитию уже процветающего 8)


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 16:32. Post subject: Re:


Thietmar
В конечном итоге все сводится к тому, что ты делаешь тексты а библиотека пишет на своем сайте что "сотрудничает" с тобой.
Если не считать того, что библиотека предоставляет рабочую "площадку" (часть сайта, канал доступа, техобслуживание сайта), то выглядит именно так.
Но тогда надо определиться - а что вообще требуется в данном случае? Из предыдущего разговора я понял так, что нужна именно "площадка" плюс доброжелательное сотрудничество с ее хозяевами.

a_e_g
Да скорее всего они и не поняли, что от них требуется и что они получат взамен.
Собственно с этого надо и планировать обсуждение: "Мы предлагаем вам следующую идею и рабочий материал для нее. Вы получите от ее реализации то-то и то-то". Иначе же любой разговор в тупик зайдет :-).




Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 17:38. Post subject: Re:


Shangry пишет:

 quote:
Собственно с этого надо и планировать обсуждение: "Мы предлагаем вам следующую идею и рабочий материал для нее. Вы получите от ее реализации то-то и то-то". Иначе же любой разговор в тупик зайдет :-).


Именно так я и сделал. Я даже заручился поддержкой нескольких профессоров, но успеха не имел. Конечно, может, в других библиотеках идея создания сайта с источниками приживется.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.08.07 18:24. Post subject: Re:


Shangry пишет:

 quote:
В конечном итоге все сводится к тому, что ты делаешь тексты а библиотека пишет на своем сайте что "сотрудничает" с тобой.
Если не считать того, что библиотека предоставляет рабочую "площадку" (часть сайта, канал доступа, техобслуживание сайта), то выглядит именно так.
Но тогда надо определиться - а что вообще требуется в данном случае? Из предыдущего разговора я понял так, что нужна именно "площадка" плюс доброжелательное сотрудничество с ее хозяевами.



Мне не нужна была "площадка". Мне нужны были сканы книг.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 03.08.07 15:15. Post subject: Re:


Сколько я понял предыдущее обсуждение:

Carlos de Almansa : "В последнее время в интернете появилось немало таких книг-первоисточников. Но это лишь крупица. Да и хранится это все на разных сайтах. Приходится бегать по интернету в поисках того или иного текста."

Thietmar: "У меня тоже есть немало отсканированных источников на иностранных языках. И исследований на них же - стирать жалко а пользоваться исследоваиями некому. Я бы эти исследования с удовольствием кому-нибудь слил.", "Проблема именно - где выставить, чтобы они там были упорядочены и - что самое главное - систематизированы."

заметная часть проблемы - это именно поиск места, где "складировать" уже имеющееся. После чего уже можно думать и о пополнении коллекции, т.е. о новых сканах. Именно в этом смысле я и высказался про какой-нибудь библиотечный сайт, как вполне естественное место для подобной коллекции.

Попытался даже забросить удочку начальству" "А не стоит ли у нас?". Но выяснилось, что официальная позиция нашей библиотеки - выкладывать литературу только на русском. Ну плюс еще пара-другая языков бывших республик - из относительно распостраненных
Так что не вышло :-(.

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 03.08.07 18:30. Post subject: Re:


Shangry пишет:

 quote:
заметная часть проблемы - это именно поиск места, где "складировать" уже имеющееся.



Это очень заметная часть проблемы. Особенно если учесть, что, чем меньше люди делают, тем выше у них требования к результатам труда других.
Я не удивлюсь, если те же библиотеки одним из условий поставят "600 dpi, greyscale" или "сканировать книгу полностью, включая обложку", даже если она появилась у книги спустя 50 лет. Требования к форматам, обработке. Как будто нельзя читать в 150 dpi или обрабатывать скан в B/W, или читать сам текст без обложки.
Трудно с ними наладить сотрудничество, даже в перспективе. На сегодня - практически невозможно.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 05.08.07 09:47. Post subject: Это не проблема :)


Разве сложно прилепить к сканам обложку? Или искусственно поставить любое разрешение при помощи Файнридера? Как можно без цифровой подписи такое обнаружить?


Спасибо: 0 
ProfileQuote Reply





link post  Posted: 05.08.07 13:16. Post subject: Re:


a_e_g пишет:

 quote:
Разве сложно прилепить к сканам обложку?



Несложно, но это если она есть в наличии.

a_e_g пишет:

 quote:
Или искусственно поставить любое разрешение при помощи Файнридера?



Да хоть с помощью чего угодно. Все в конечном итоге будет зависеть от квалификации принимающих работу

Но я изначально не приемлю такую ущербную позицию - "вот мы, и соизвольте мол делать так и так". Пример - гугльбукс. Читали их требования к сканам? При этом сотрудничают они только с официальными библиотеками. А что они получают в результате?
Сканируется всё абы как, неизвестно кем и бессовестно криво. Лишь редкие универы сканируют как надо. Совесть есть у Стокгольмской библиотеки (королевской?), у Гуверовского универа. Мичиган заметно кривее, но все же их сканы еще как-то терпимы...
Есть там рекордсмен по криворукости и раззвездяйству - стэнфордский университет. К величайшему сожалению, они же и рекордсмены по кол-ву отсканированных книг на русском. В отдельных книгах из-за чудовищных ошибок при сканировании (или фотосканировании) из 500-600 страниц через фильтры живыми удалось пробраться от силы сотне-двум. И переделывать никто не будет. Поставили "птицу" - книга сделана, и пошли дальше. А сколько отдельных мутных страниц, срезанных полей...

И попробуйте при этом обратиться к гугльбуксу с предложением взять сканы в 300 dpi! Сама постановка вопроса - сотрудничество только с официальными организациями - по умолчанию подразумевает, что все "частники" априори криворуки и безалаберны, и никакого качества от них не дождешься. А на деле всё чуть ли не зеркально противоположно.


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 05.08.07 14:25. Post subject: Re:


Да, Гугльбокс действительно кривой. Хотя ручками обычно можно всё поправить. Очень часто у них лежит по несколько экземпляров одного и того же скана и собрать из них нормальный в Акробате можно. Как рудник ГБ вполне годится :)

С классификацией у них слабовато. И вроде бы списка обновлений нет (что изменено и что впервые выложено).

А требования 600 dpi вполне понятны. Они хотели полную замену бумажной книги. Чтобы и фактура бумаги была видна, и водяные знаки. Но увы, часто и текст невозможно читать - отсутствуют/перепутаны страницы, плохо отсканировано. И распознанные тексты (используются при поиска) они на старых изданиях не вычитывают. А новые у них под копирайтом и не полностью.

В общем, я у Карлоса на форуме кое-что написал, что надо делать. Присоединяйтесь :)

regards,
aeg


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 05.08.07 18:08. Post subject: Re:


Shangry пишет:

 quote:
Есть еще один вариант: соблазнить на такую выкладку одну из больших библиотек.



Carlos de Almansa пишет:

 quote:
Идея, конечно, хорошая. Я даже пробовал, но без успехов.




Carlos de Almansa пишет:

 quote:
А меня университетская библиотека просто отфутболила с формулировкой "все равно когда-нибудь кто-нибудь это сделает".



Как вы не понимаете - книги на сайтах это смерть библиотек, а кому же хочется ускорять собственную смерть?

Спасибо: 0 
ProfileQuote Reply





link post  Posted: 05.08.07 19:31. Post subject: Re:


a_e_g пишет:

 quote:
Да, Гугльбокс действительно кривой. Хотя ручками обычно можно всё поправить. Очень часто у них лежит по несколько экземпляров одного и того же скана и собрать из них нормальный в Акробате можно. Как рудник ГБ вполне годится :)

С классификацией у них слабовато. И вроде бы списка обновлений нет (что изменено и что впервые выложено).

А требования 600 dpi вполне понятны. Они хотели полную замену бумажной книги. Чтобы и фактура бумаги была видна, и водяные знаки. Но увы, часто и текст невозможно читать - отсутствуют/перепутаны страницы, плохо отсканировано. И распознанные тексты (используются при поиска) они на старых изданиях не вычитывают. А новые у них под копирайтом и не полностью.



У них, ЕМНИП, требование 400 dpi. Несколько вариантов - к сожалению, далеко не всегда. Из 1500 скачанных книг по два варианта хорошо если с полсотни наберется.
По поводу фактуры и т.п. - они жмут пдф-ы чем-то подобным алгоритму конвертации djvu, и фон там размывается. Распознают они чудовищно. Текст сильно смазывают и потом делают чудовищный деспеклинг - иногда буквы "н" словно две палки, без перемычки...
Словом, а ну их... рудник - это точно.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 05.08.07 23:05. Post subject: Re:


Игорь пишет:

 quote:
Как вы не понимаете - книги на сайтах это смерть библиотек, а кому же хочется ускорять собственную смерть?


Ну, есть правда в Ваших словах. Хотя BNF вон какой проект забацала. Сканы, правда, паршивые. Но зато какой размах! Впрочем, чем ждать милости от библиотек, лучше самому начать работу. Можно, конечно, скачать или сделать самому копии книг и никому их не давать, но я не придерживаюсь этой точки зрения.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 06.08.07 08:33. Post subject: Re:


С библиотеками плохо ещё дело иметь, так как они из-за копирайта выкладывают только очень старые издания. Хотя это можно было обойти, выложив не полную копию современного издания, а текст (причём обязательно распознанный) отдельно, историко-филологический аппарат и историографические работы - отдельно.

В старых изданиях текст обычно приемлем, а вот комментарии могут и устареть.



Спасибо: 0 
ProfileQuote Reply



link post  Posted: 06.08.07 15:33. Post subject: Re:


Игорь
Как вы не понимаете - книги на сайтах это смерть библиотек, а кому же хочется ускорять собственную смерть?
Пропускная способность хорошего Book-Scaner'а - три-четыре книги объемом около 400 страниц за рабочий день. Планшетники в этом смысле я уже и не поминаю :-). Посчитайте сколько можно таким образом сделать за год и сравните с объемами текущего книгоиздания. А еще ведь и старые фонды есть...
Так что говорить в этом смысле о смерти библиотек - IMHO все равно, что Байкал чайной чашкой вычерпывать :-).

a_e_g
С библиотеками плохо ещё дело иметь, так как они из-за копирайта выкладывают только очень старые издания.
Поскольку обсуждаемые издания всякого рода юридическим благоглупостям не подлежат по определению, то вопрос только в том, чтобы найти желающего вообще.

Кроме того на "Закон об авторских правах" кое-какая управа есть. "Закон о библиотечном деле", например. И в рамках этого закона вполне допустимо сканирование книг и выкладка - правда только в пределах локальной сети библиотеки. Но зато никто не мешает библиотекам объединяться в рамках такого сканировани/выкладывания плюс налаживать систему взаимопомощи и обмен отсканированными изданиями.


Спасибо: 0 
ProfileQuote Reply



link post  Posted: 07.08.07 16:00. Post subject: Re:


Прикинул, что в качестве временного паллиатива могут предложить следующее: создать FTP-ящик (у нас на сервере) и выкладывать там книги, по запросам от желающих. А на форуме, или еще где, оставить адрес для запросов.

Основной ограничитель - дневной объем выкладки. Обработать много писем за день не смогу просто физически. Да и сетевики ворчать будут на излишний расход трафика. А так, вполне привычное дело. Мы уже не раз таким образом отсылали заказчикам отсканированные материалы.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 08.08.07 12:33. Post subject: Есть ещё вариант


Договориться с Гумером . У них висит такое объявление:

 quote:

Объявление: предлагаем бесплатный хостинг для размещения сайтов со сходной тематикой ( религиозные, научно-познавательные, учебные, электронные библиотеки и т.д.)

Технические возможности: php, ftp, любые скрипты (с установкой и поддержкой)
Объем до 1 Gb.
Доменное имя типа - http://имя.gumer.info/
пишите - договоримся

Наши контактные адреса
Ринат (гл. редактор) - libgumer@yandex.ru
Сергей (вебмастер) - master.sergey@gmail.com



Для распознанных текстов объём вполне нормальный.

regards,
aeg


Спасибо: 0 
ProfileQuote Reply
Replys - 63 , page: 1 2 3 4 5 All [new only]
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 13
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no