Author | Topic |
|
Posted: 01.02.11 18:23. Post subject: Перевод текста из старой орфографии в современную
|
|
|
Replys - 9
[new only]
|
|
|
Posted: 02.02.11 01:29. Post subject: Слишком сложно. Намн..
Слишком сложно. Намного проще научить шаблон в ФР.
|
|
|
|
Posted: 02.02.11 02:49. Post subject: Скрипт на викитеки о..
Скрипт на викитеки опробовал. работает очень хорошо, ограничений по тексту нет. Главное он действует по всем правилам. Проблема только в том что текст после распознавания и переж использованием скрипта должен включать как можно меньше ошибок. На счет шаблона в ФР вы имеет в виду эталон? То есть используя встроенный в FR русский язык и заставить FR распознавать например "ять", как е? Кажется слово шаблон в FR относиться только к шаблону областей. Это эмпирический подход. Все-таки по логике дореволюционную орфографию надо распознавать как дореволюционную орфографию, а затем с помощью специализированных инструментов переводить в современную.
|
|
|
|
Posted: 02.02.11 03:34. Post subject: Эталон распознает до..
Эталон распознает дорев. текст - как дорев. текст. Потом ять меняется на е автозаменой. Дорев. текст частенько бывает с нестандартизованными оборотами, поэтому доверять его скрипту я бы не хотел.
|
|
|
|
Posted: 02.02.11 03:59. Post subject: Ну а твердый знак на..
Ну а твердый знак на конце, к примеру. Эту проблему автозаменой не решить. Скрипт как я понял делался и оттачивался группой специалистов. Хорошо бы протестировать скрипт в том числе и на нестандартизированных оборотах. Которые этот скрипт вряд ли заменит на стандартные. К тому же на такие вещи при распознавании все равно приходиться обращать внимание и сравнивать с оригиналом.
|
|
|
|
Posted: 02.02.11 04:20. Post subject: Твердый знак (ТЗ) на..
Твердый знак (ТЗ) на конце решается тремя автозаменами: ТЗ с пробелом на пробел, ТЗ с точкой - на точку, и ТЗ с запятой - на запятую. После этого в тексте остается такое исчезающе малое количество ТЗ что их прокликать пара пустяков. Никакой скрипт этого не заменит, очень уж была жива и нестандартизирована речь у дорев. писателей.
|
|
|
|
Posted: 02.02.11 04:35. Post subject: То есть в словах где..
То есть в словах где твердый знак нужен он будет удален. К тому же есть все эти окончания, приставки, дефисы. Их много. В любом случае если не скрипт, то нужен созданный опытным филологом алгоритм автозамены. Алгоритм который сведущий в скриптах человек сможет свести в соответствующий инструмент.
|
|
|
|
Posted: 02.02.11 04:51. Post subject: "Твердый знак (Т..
"Твердый знак (ТЗ) на конце решается тремя автозаменами: ТЗ с пробелом на пробел, ТЗ с точкой - на точку, и ТЗ с запятой - на запятую. " В новой орфографии с 1918 года твердый знак нигде не стоит перед пробелом, точкой или запятой. Остальное прокликивается на "найти", а не на "заменить". Все окончания - я делаю небольшим количеством замен и контрольных прокликиваний.
|
|
|
|
Posted: 02.02.11 05:20. Post subject: Да да простите точно..
Да да простите точно точно. С ТЗ тоже все ясно. Теперь хорошо бы найти или написать коллективный алгоритм на автозамены. Помниться у меня при автозаменах в дореволюционых книгах всегда что-нибудь терялось и проподалось.
|
|
|
|
Posted: 02.02.11 13:18. Post subject: Заменяйте только бук..
Заменяйте только буквы, остальное я заменю сам.
|
|
|
|