От электронной публикации средневековой рукописи до больших данных, или Что знает искусственный интеллект о начале славянской книжности

Резюме: 

The article describes the preparation of machine-readable linguistic resources based on medieval Slavic written monuments, as well as their use in systems for automated and automatic processing of large text data. The history of this area of applied Paleoslavistics is briefly shown on the example of several projects for the creation of electronic publications, collections and corpora of Slavic manuscripts. Particular attention is paid to the stages of development and the material of the Manuscript historical corpus (mansucripts.ru), which contains marked-up transliterations of Glagolitic and transcriptions of Cyrillic manuscripts of the 10th–15th centuries, as well as specialized tools for processing, demonstrating and analyzing non-standard graphic and spelling features and structure of texts.
      The labor-intensive and complex process of preparing copies of manuscripts and marking them up, unfortunately, is still the only way to convert a graphic image into a machine-readable form. It is noted that the tagged collections created on the basis of Slavic manuscripts make it possible to use the latter both for creating models for recognizing manuscripts in existing HTR systems and for developing new specialized tools for recognizing and analyzing Slavic manuscript heritage.

Виктор А. Баранов (Ижевск, Россия)
victor.a.baranov@gmail.com

Литература: 

Б а р а н о в, В. А. Создание и использование исторических корпусов славянских письменных памятников. – Scripta & e-Scripta, 19 (2019), с. 33–57.

Б а р а н о в, В. А. Дистрибутивный словарь исторического корпуса Манускрипт: постановка задачи, материал, методы. – Актуальные проблемы филологии и педагогической лингвистики, 2 (2022), с. 94–106. – DOI: 10.29025/2079-6021-2022-2-94-106.

Б а р а н о в, В. А.,  Р. М. Г н у т и к о в. Транскрипции средневековых славянских рукописей как многофункциональный электронный ресурс: издание – коллекция – корпус. – В: Mobilitas: движение на хора, идеи, стоки, пари, изкуство в средновековния свят (= Годишник на Софийския университет „Св. Климент Охридски“. Център за славяно-византийски проучвания „Иван Дуйчев“. Т. 102 (21). София, 2021, с. 422–435.

Б а р а н о в, В. А.,  М. О. Н о в а к. Параллельный корпус славянского паримейника: состав, структура и разметка вспомогательных текстов. – Вестник Волгоградского государственного университета. Серия 2, Языкознание, 21 (2022), № 6, с. 6–17. – DOI: https://doi.org/10.15688/jvolsu2.2022.6.1.

О р е х о в, Б. В. „Крейсер „Россия“ и другие фантазии ChatGPT. – В: Системный блокъ. – https://sysblok.ru/blog/krejser-rossija-i-drugie-fantazii-chatgpt/ (19.03.2023).

Сводный каталог славяно-русских рукописных книг, хранящихся в СССР. XIXIII вв. Москва, 1984.

У х а н о в а, Е. В. Новые атрибуции древнейших пергаменных рукописей: новгородская минея XII в. особой редакции. – Библиотековедение, 65 (2016), № 4, с. 409–417. – https://bibliotekovedenie.rsl.ru/jour/article/viewFile/370/74 (15.02.2023).

Х о к и, С. История гуманитарного компьютинга. – Логос, 25 (2015), № 2 (104), с. 37–65. – http://www.logosjournal.ru/arch/80/logos-80.pdf (15.02.2023).

 

B a r a n o v, V. A.,  R. M. G n u t i k o v. The statistics and n-gram modules of the historical corpus “Manuscript”. – In: Digital and Analytical Approaches to the Written Heritage. Proceedings of the 7th International Conference El’Manuscript ,,Textual Heritage and Information Technologies“, Vienna and Krems, Austria, 14–18 September, 2018. Compilers and Editors: A. Miltenova, V. A. Baranov, H. Miklas, K. Hawkins, J. Fuchsbauer. Sofia, 2019, p. 9–28.

Menaia tou olou eniautou. Akolouphiai Maiou kai Iouniou. En Rome, 1899. Τ. E. S. 3–208.