Количественные и статистические характеристики лексического окружения существительных брань и рать в старославянских и восточнославянских источниках XI–XV вв.: Опыт извлечения и анализа малых корпусных данных

Резюме: 

This paper analyzes the lexical distribution of the nouns брань ‘battle’ and рать ‘war, army’ in sixteen Slavic written monuments of the 11th-15th centuries with varied textual characteristics. Methods are used for comparing the frequency of the analyzed nouns, extracting bigrams and measuring the closeness between these nouns and their collocates, and calculating the correlation between lists of collocates of one noun in different subcorpora and between lists of collocates of different nouns in one subcorpus. The author posits a relationship between the basic characteristics of the lexical environment and the semantics of the words брань ‘battle’ and рать ‘war, army’. The author also demonstrates a relationship between the distribution of the analyzed words and the textual characteristics of the texts.

Виктор А. Баранов (Ижевск, Россия)

Литература: 

Б а р а н о в, В. А. Инструменты и методика поиска коллокаций в историческом корпусе „Манускрипт“ (на примере глаголических рукописей). –  Filologija, 68 (2017), pp. 17–49.

Б а р а н о в, В. А. Создание и использование исторических корпусов славянских письменных памятников. – Scripta & e-Scripta, 19 (2019), с. 33–57.

Б а т у р а, Т. В.,  С. Е. С т р е к а л о в а. Подход к построению расширенных тематических моделей текстов на русском языке. – Вестник Новосибирского государственного университета. Серия: Информационные технологии, 16 (2018), № 2, с. 5–18.

  • о б к о в а, Т. Извлечение коллокаций из корпуса украинских текстов. – Research Journal Studies about Languages, 27 (2015), p. 93–105.

Б р а с л а в с к и й, П.,  E. С о к о л о в. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста. – В: Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции „Диалог 2006“, Бекасово, 31 мая – 4 июня 2006. Москва, 2006. URL: http://www.dialog-21.ru/digests/dialog2006/materials/html/Braslavski.htm.

Б у р а к о в а, О. М. Методы и методика выделения семантических полей. – В: XII (59) научная сессия преподавателей, научных сотрудников и аспирантов университета: сборник статей. Витебск, 2007, с. 195–199.

Д и м и т р о в а, А. Златоструят в преводаческата дейност на старобългарските книжовници. София, 2016.

Д о б р е в, И. Текстът на Добромировото евангелие и втората редакция на старобългарските богослужебни книги. – Български език, 29 (1979), № 1, с. 9–21.

Ж е л я з к о в а, В. Паримейные чтения в четьих списках Книги Исход. – Studia Ceranea, 6 (2016), с. 225–240.

Ж е л я з к о в а, В. Книга Исход в южнославянских списках XV–XVI вв. – Studi Slavistici, 13 (2016), с. 243–256.

Ж о л о б о в, О. Ф., B. A. Б а р а н о в. Дистрибутивно-квантитативные и семантические характеристики глаголов знания в старославянской и древнерусской письменности. – Вестник Санкт-Петербургского университета. Язык и литература, 18 (2021), № 1, с. 56–76.

Ж о л о б о в, О. Ф.,  B. A. Б а р а н о в. Трансформации лексического ряда животъжизньжитие: опыт лингвостатистического описания. – Вопросы языкознания, 2022, № 2, с. 65–101. DOI: 10.31857/0373-658X.2022.2.65-101.

З а х а р о в, В. П.,  M. К о г а н,  А. Ю. К о л о т а е в а,  A. Т и л ь м а н c,  З. Ш р о т - В и х е р т, А. М. Я р о ш е в и ч. К проблеме создания списка высокочастотных слов и выражений немецкого языка для специальных целей. – В: Компьютерная лингвистика и вычислительные онтологии. Вып. 2. Труды XXI Международной объединенной научной конференции „Интернет и современное общество (IMS‑2018)“. Санкт-Петербург, 2018, с. 44–55. URL: https://openbooks.itmo.ru/ru/file/8417/8417.pdf.

З а х а р о в, В. П.,  M. B. Х о х л о в а. Автоматическое выявление терминологических словосочетаний. – Структурная и прикладная лингвистика, 10 (2014), с. 182–200.

И л и е в, И. Тълкуванието на Книга на пророк Даниил от Иполит Римски в старобългарската литература. – Автореферат на дисертация за присъждане на образователната и научна степен „доктор“. София, 2016.

К о л ш а н с к и й, Г. В. О природе контекста. – Вопросы языкознания, 4 (1959), с. 47–49.

К о ч е т к о в а, Н. А. Статистические языковые методы. Коллокации и коллигации. – Новые информационные технологии в автоматизированных системах, 16 (2013), с. 301–305. URL: http://cyberleninka.ru/article/n/statisticheskie-yazykovye-metodykolloka....

К р ю к о в а, А. В. Определение семантической близости текстов с использованием инструмента DKPro Similarity. – В: Компьютерная лингвистика и вычислительные онтологии. Вып. 1. Труды XX Международной объединенной научной конференции „Интернет и современное общество (IMS‑2017)“. Санкт-Петербург, 2017, с. 87–97. URL: https://openbooks.itmo.ru/ru/file/6510/6510.pdf.

М а с е в и ч, А. Ц.,  В.  П. З а х а р о в. Методы корпусной лингвистики в исторических и культурологических исследованиях // Компьютерная лингвистика и вычислительные онтологии. – В: Труды XIX Международной объединенной научной конференции „Интернет и современное общество (IMS‑2016)“. Санкт-Петербург, 2016, с. 24–43. URL: https://openbooks.itmo.ru/ru/file/4102/4102.pdf.

М и л т е н о в, Я. Лексический критерий как способ атрибуции преславских текстов (на материале славянского перевода Диалогов Псевдо-Кесария). – Славяноведение, 5 (2008), с. 41–49.

М и л т е н о в, Я. Преславските лексикални маркери. 1. Опит за въведение. – Palaeobulgarica, 44 (2020), № 2, с. 54–79.

М и т р о ф а н о в а, О. А.,  В. В. Б е л и к,  В. В. К а д и н а. Корпусное исследование сочетаемостных предпочтений частотных лексем русского языка. – В: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной междунар. конф. „Диалог“. Москва, 2008. URL: http:// www.dialog-21.ru/dialog2008/materials /html/56.htm.

М и т р о ф а н о в а, О. А.,  Е. В. С о к о л о в а. Автоматическое извлечение ключевых слов и словосочетаний из русскоязычных текстов с помощью алгоритма KEA. – В: Компьютерная лингвистика и вычислительные онтологии. Вып. 1. Труды XX Международной объединенной научной конференции „Интернет и современное общество (IMS‑2017)“. Санкт-Петербург, 2017, c. 157–165. URL: https://openbooks.itmo.ru/ru/file/6522/6522.pdf.

Непараметрические корреляции. – В: StatSoft. URL: https://clck.ru/RzcdD.

Н о в а к, М. О. Формы перфекта в древнеславянском переводе Апостола (на материале списков XII–XIV вв.). – Вестник Волгоградского государственного университета. Серия 2: Языкознание, 15 (2016), № 2, с. 69–74. DOI: http://dx.doi.org/10.15688/jvolsu2.2016.2.8.

Н о в а к, М. О. Источники и язык толкований на Деяния в Толстовском Апостоле XIV века. – Вестник Волгоградского государственного университета. Серия 2, Языкознание, 16 (2017), № 4, с. 58–65. DOI: https://doi.org/10.15688/jvolsu2.2017.4.4.

Н о в а к, М. О. Греко-славянские синтаксические корреляции в оглавлениях к посланиям Апостолов (на материале древнерусских списков XII–XIV в.). – Древняя Русь. Вопросы медиевистики, 69 (2017), № 3, с. 93–94.

Н о в и к о в а, А. С. К вопросу об истории создания евангельского текста Чудовской рукописи. – В: Славянские языки и литературы в синхронии и диахронии. Материалы международной научной конференции. Москва, 2013, с. 268–273.

П и в о в а р о в а, С. С. Выявление терминов-кандидатов для многоязычного терминологического словаря. – В: Компьютерная лингвистика и вычислительные онтологии. Труды XIX Международной объединенной научной конференции „Интернет и современное общество (IMS‑2016)“. Санкт-Петербург, 2016, с. 55–64. URL: https://openbooks.itmo.ru/ru/file/4104/4104.pdf.

П и в о в а р о в а, Л. М.,  Е. В. Я г у н о в а. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (предварительные наблюдения). – В: Материалы Симпозиума „Терминология и знание“, Москва, 21–22 мая 2010. Москва, 2010. URL: http://webground.su/data/lit/pivovarova_yagunova/Izvlechenie_i_klassifikatsiya_terminoligicheskih_kollokatsyi.pdf.

Русский язык конца XX столетия (1985–1995) / В. Л. Воронцова, М. Я. Гловинская, Е. И. Голанова [и др.]. Москва, 1996. (Язык. Семиотика. Культура).

С л а в о в а, Т. Преславска редакция на Кирило-Методиевия старобългарски евангелски превод. – Кирило-Методиевски студии, 6 (1989), с. 15–129.

С л а в о в а, Т. Славянският превод на Посланието на патриарх Фотий до княз Борис-Михаил. София, 2013.

С о р о к о л е т о в, Ф. П. История военной лексики в русском языке (XI–XVII вв.). Москва, 2009.

Ф и л и н, Ф. П. Историческая лексикология русского языка. Москва, 2008.

Х о х л о в а, М. В.,  А. М. П о п о в. К вопросу о репрезентации данных о сочетаемости в электронных лексикографических ресурсах. – В: Компьютерная лингвистика и вычислительные онтологии. Вып. 2. Труды XXI Международной объединенной научной конференции „Интернет и современное общество (IMS‑2018)“. Санкт-Петербург, 2018, с. 121–127. URL: https://openbooks.itmo.ru/ru/file/8484/8484.pdf.

Я г у н о в а, Е. В. Слово – коллокация – синтаксические конструкции – текст. Единица анализа и контекст. – В: Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Москва, 2011.

Я г у н о в а, Е. В.,  Л. М. П и в о в а р о в а. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов. – Сборник НТИ. Сер. 2, (2010), № 6. URL: http://http://webground.su/services.php?param=priroda_collac&part=prirod....

Я г у н о в а, Е. В.,  Л. М. П и в о в а р о в а. От коллокаций к конструкциям. – В: Русский язык: конструкционные и лексико-семантические подходы. Санкт-Петербург, 2013, 51 с. (= Acta Linguistica petropolitana: Труды Института лингвистических исследований РАН). URL: https://bit.ly/2OWkAmC.

 

B a r a n o v, V. A Text Corpus of Medieval Manuscripts as a Goal and a Tool for Linguistic Research. – In: Editing Mediaeval Texts from a Different Angle: Slavonic and Multilingual Traditions. To Honour Francis J. Thomson on the Occasion of His 80th Birthday. Edited by L. Sels, J. Fuchsbauer, V. Tomelleri and I. de Vos. Paris–Bristol: Peeters Leuven, 2018, pp. 283–308.

B a r a n o v, V. A.,  R. M. G n u t i k o v. The statistics and n-gram modules of the historical corpus “Manuscript”. – In: Digital and Analytical Approaches to the Written Heritage: Proceedings of the 7th international conference El’Manuscript “Textual Heritage and Information Technologies”. Compilers and Editors: A. Miltenova, V. Baranov, H. Miklas, K. Hawkins, J. Fuchsbauer. Sofia, 2019, pp. 9–28.

E v e r t, S. The statistics of word cooccurences word pairs and collocations. PhD thesis. Stuttgart, 2005. URL: https://elib.uni-stuttgart.de/bitstream/11682/2573/1/Evert2005phd.pdf.

F o r c h i n i, P., A. M u r p h y. N-grams in comparable specialized corpora. Perspectives on phraseology, translation and pedagogy. – In: International Journal of Corpus Linguistics, 13 (2008), № 3, p. 351–367.

J a g i ć, V. Entstehungsgeschichte der kirchenslavischen Sprache. Berlin, 1913.

K u t u z o v, A., L. Ø v r e l i d, T. S z y m a n s k i, E. V e l l d a l. Diachronic word embeddings and semantic shifts: a survey. – In: Proceedings of the 27th International Conference on Computational Linguistic. Santa Fe, New Mexico, USA (2018), p. 1384–1397. URL: https://www.aclweb.org/anthology/C18-1117.

M a n n i n g, C.,  H. S c h ü t z e. Foundations of Statistical Natural Language Processing. Cambridge, 2000.