On-line: guests 0. In total there are: 0 [information..]
AuthorTopic



link post  Posted: 01.02.11 18:23. Post subject: Перевод текста из старой орфографии в современную


Доброго времени суток!
Задался вопросом о существовании способов перевода текста из дореволюционной орфографии в современную.

1. Существует версия программы AfterScan - AfterScan Antique
<\/u><\/a> Программа платная (стоит 2500). В отличие от другой версии AfterScan Express лечния, да и самого дистрибутива не нашел. Может у кого есть?

2. С помощью скрипта на ресурсе [url=http://ru.wikisource.org/wiki/MediaWiki:Gadget-Deyatificator.js]Викитека[/url] Кто им уже пользовался, интересно узнать мнение.

Для того чтобы им воспользоваться как мне объяснили надо

1) распознать текст в Fine Reader, включив язык распознавания «русский (дореволюционная орфография)»
2) желательно вычитать текст в ДО
3) зарегистрируйтесь в Викитеке (обязательно)
4) войдите в свою учётную запись. Зайдите в раздел настройки (ссылка должна быть вверху справа), там в раздел «Гаджеты» и поставьте галочку на пункте «Деятификатор». Нажмите кнопку «Сохранить»
5) создайте любую страницу, лучше в собственном пространстве имён, но можно просто зайти на страницу [url=http://ru.wikisource.org/wiki/Викитека:Песочница]Песочница[/url] и нажмите кнопку Править (вверху). Сотрите всё что там будет (кроме заголовка «{{/Шапка}}») и вставьте туда свой текст, скопированный из FineReader.
6) Нажмите кнопку деятификатора (должна быть сверху окна редактирования такого вида: Ѣ→Е)
7) Текст переведётся в новую орфографию, можно проверить его прямо в вашем браузере, если там есть проверка орфографии или в Word и т.п

P.S. Форумчанин A-U-L предлагает
Скрипт для MS Word<\/u><\/a>, но как я понял скрипт работает не с дореволюционной орфографией а со стандартными ошибками вызванными распознаванием дореволюционного текста как современного.
Если кто знает другие способы, прошу поделиться.

Спасибо: 0 
ProfileQuote Reply
Replys - 9 [new only]





link post  Posted: 02.02.11 01:29. Post subject: Слишком сложно. Намн..


Слишком сложно. Намного проще научить шаблон в ФР.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.02.11 02:49. Post subject: Скрипт на викитеки о..


Скрипт на викитеки опробовал. работает очень хорошо, ограничений по тексту нет. Главное он действует по всем правилам. Проблема только в том что текст после распознавания и переж использованием скрипта должен включать как можно меньше ошибок.

На счет шаблона в ФР вы имеет в виду эталон? То есть используя встроенный в FR русский язык и заставить FR распознавать например "ять", как е? Кажется слово шаблон в FR относиться только к шаблону областей. Это эмпирический подход. Все-таки по логике дореволюционную орфографию надо распознавать как дореволюционную орфографию, а затем с помощью специализированных инструментов переводить в современную.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.02.11 03:34. Post subject: Эталон распознает до..


Эталон распознает дорев. текст - как дорев. текст. Потом ять меняется на е автозаменой. Дорев. текст частенько бывает с нестандартизованными оборотами, поэтому доверять его скрипту я бы не хотел.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.02.11 03:59. Post subject: Ну а твердый знак на..


Ну а твердый знак на конце, к примеру. Эту проблему автозаменой не решить.

Скрипт как я понял делался и оттачивался группой специалистов. Хорошо бы протестировать скрипт в том числе и на нестандартизированных оборотах. Которые этот скрипт вряд ли заменит на стандартные. К тому же на такие вещи при распознавании все равно приходиться обращать внимание и сравнивать с оригиналом.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.02.11 04:20. Post subject: Твердый знак (ТЗ) на..


Твердый знак (ТЗ) на конце решается тремя автозаменами:
ТЗ с пробелом на пробел, ТЗ с точкой - на точку, и ТЗ с запятой - на запятую.

После этого в тексте остается такое исчезающе малое количество ТЗ что их прокликать пара пустяков.

Никакой скрипт этого не заменит, очень уж была жива и нестандартизирована речь у дорев. писателей.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.02.11 04:35. Post subject: То есть в словах где..


То есть в словах где твердый знак нужен он будет удален. К тому же есть все эти окончания, приставки, дефисы. Их много. В любом случае если не скрипт, то нужен созданный опытным филологом алгоритм автозамены. Алгоритм который сведущий в скриптах человек сможет свести в соответствующий инструмент.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.02.11 04:51. Post subject: "Твердый знак (Т..


"Твердый знак (ТЗ) на конце решается тремя автозаменами:
ТЗ с пробелом на пробел, ТЗ с точкой - на точку, и ТЗ с запятой - на запятую. "

В новой орфографии с 1918 года твердый знак нигде не стоит перед пробелом, точкой или запятой. Остальное прокликивается на "найти", а не на "заменить".

Все окончания - я делаю небольшим количеством замен и контрольных прокликиваний.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.02.11 05:20. Post subject: Да да простите точно..


Да да простите точно точно. С ТЗ тоже все ясно.
Теперь хорошо бы найти или написать коллективный алгоритм на автозамены. Помниться у меня при автозаменах в дореволюционых книгах всегда что-нибудь терялось и проподалось.

Спасибо: 0 
ProfileQuote Reply



link post  Posted: 02.02.11 13:18. Post subject: Заменяйте только бук..


Заменяйте только буквы, остальное я заменю сам.

Спасибо: 0 
ProfileQuote Reply
Reply:
1 2 3 4 5 6 7 8 9
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Username, Password:      register    
Тему читают:
- user online
- user offline
All times are GMT  3 Hours. Hits today: 7
You can: smiles yes, images yes, types yes, poll no
avatars yes, links on, premoderation off, edit new post no