Эволюция лексического богатства русского языка (корпусное исследование на основе диахронических датасетов национального корпуса русского языка)
Аннотация
Обоснование. Актуальность исследования обусловлена необходимостью изучения лексических изменений в русском языке современными методами. Научная новизна работы заключается в разработке и применении комплексных статистических методов для системного количественного анализа русской лексики на основе частотных словарей 1700–1916, 1918–1991 и 1992–2016 г. общим объемом 250 млн. употреблений, что позволило выявить и количественно описать особенности динамики лексического богатства и структуры словарного состава русского языка в диахронической перспективе.
Цель – определение особенностей динамики лексического богатства русского языка на основе диахронических датасетов 1700–1916, 1918–1991 и 1992–2016 г.
Материалы и методы. Материалы исследования – диахронические датасеты Национального корпуса русского языка 1700–1916, 1918–1991 и 1992–2016 г. Методы – компьютерная обработка корпусов и проверка на соответствие закону Ципфа, расчет индексов Херфиндаля-Хиршмана (HHI), Симпсона, Бергера-Паркера, энтропии Шеннона, коэффициента лексического разнообразия Type-Token Ratio (TTR), статистических значимостей (хи-квадрат) и др.
Результаты. Корпусный анализ диахронических данных за периоды 1700–1916, 1918–1991 и 1992–2016 г. выявил снижение общего лексического разнообразия и богатства русского языка от дореволюционного к постсоветскому периоду. Однако это обеднение лексики происходит преимущественно за счет редких и малочастотных слов, в то время как активный словарь, наоборот, расширяется и становится более продуктивным.
EDN: RWPCAF
Скачивания
Литература
Завьялова, И. С., & Шерстинова, Т. Ю. (2022). О морфологических различиях в текстах русской малой прозы 1900–1930 гг. Человек: Образ и сущность. Гуманитарные аспекты, (2), 176–204. https://doi.org/10.31249/chel/2022.02.12. EDN: https://elibrary.ru/OEIGOJ
Комарькова, М. А. (2021). Тенденции лингвистических изменений в современном английском языке. Современное педагогическое образование, (6), 153–155. EDN: https://elibrary.ru/DNEYUT
Мартыненко, Г. Я., Шерстинова, Т. Ю., Попова, Т. И., Мельник, А. Г., & Замирайлова, Е. В. (2018). О принципах создания корпуса русского рассказа первой трети XX века. В кн.: Труды международной конференции по компьютерной и когнитивной лингвистике (с. 180–197). EDN: https://elibrary.ru/YFFGSO
Соловьёв, В. Д. (2012). Статистические методы анализа диахронических корпусов текстов как инструмент исследования языковой динамики. В кн.: Материалы международной конференции «Русский язык: функционирование и развитие» (с. 47). Казань: Казанский университет.
Черкасова, Г. А. (2015). Сопоставительные исследования коэффициентов «Лексического разнообразия» и «Лексического богатства» Ю. Н. Караулова на материале русских ассоциативных словарей. Вопросы психолингвистики, (25), 93–104. EDN: https://elibrary.ru/UDLHEJ
Шерстинова, Т. Ю., & Завьялова, И. С. (2022). Динамика дистрибуции частеречных и грамматических категорий в русском рассказе 1900–1930. В кн.: Русская грамматика в диалоге научных школ, направлений, методов (с. 324). EDN: https://elibrary.ru/LLVVYK
Шерстинова, Т. Ю. (2021). Русская литература 1900–1930: что изменилось в языке и стиле после Октябрьской революции? В кн.: Второй российский эстетический конгресс (с. 622–624). EDN: https://elibrary.ru/PZGGQT
Шерстинова, Т. Ю., Колпащикова, Е. О., Сейнова, А. Р., Максименко, П. И., & Родионов, Р. А. (2023). Русский рассказ 1900–1930 х и его восприятие читателем: опыт квантитативного анализа оценки художественного текста. Человек: Образ и сущность. Гуманитарные аспекты, (2), 164–184. https://doi.org/10.31249/chel/2023.02.09. EDN: https://elibrary.ru/GZYNIO
Юлдашева, Л. У. (2023). Исследование лексического массива русского языка: вопросы сохранения и потери слов в современной эпохе. Journal of Multidisciplinary Bulletin, 6(5), 458–466.
Blinova, O. V., Belov, S., & Revazov, M. A. (2021). Decisions of Russian constitutional court: lexical complexity analysis in shallow diachrony. В кн.: CEUR Workshop Proceedings (с. 61–74).
Bochkarev, V. V., Solovyev, V. D., Nestik, T. A., & Shevlyakova, A. V. (2024). Variations in average word valence of Russian books over a century and social change. Journal of Mathematical Sciences, 285(1), 14–27. https://doi.org/10.1007/s10958-024-07419-z. EDN: https://elibrary.ru/QYDSPS
Buntinx, V., & Kaplan, F. (2018). Negentropic linguistic evolution: A comparison of seven languages. В кн.: Digital Humanities 2018: Book of Abstracts / Libro de resúmenes.
Dunn, J., Coupe, T., & Adams, B. (2020, November). Measuring linguistic diversity during COVID 19. В кн.: Proceedings of the Fourth Workshop on Natural Language Processing and Computational Social Science (с. 1–10). https://doi.org/10.18653/v1/2020.nlpcss-1.1
Fomin, V., Bakshandaeva, D., Rodina, Ju., & Kutuzov, A. (2019). Tracing cultural diachronic semantic shifts in Russian using word embeddings. В кн.: Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2019” (Moscow, May 29 – June 1, 2019). Получено из: https://arxiv.org/pdf/1905.06837
Gries, S. T. (2021). Statistics for linguistics with R: A practical introduction (3rd ed.). Berlin: De Gruyter Mouton. https://doi.org/10.1515/9783110718256
Jost, L. (2006). Entropy and diversity. Oikos, 113(2), 363–375. https://doi.org/10.1111/j.2006.0030-1299
Kutuzov, A., & Kuzmenko, E. (2018). Two centuries in two thousand words: Neural embedding models in detecting diachronic lexical changes. В кн.: Quantitative approaches to the Russian language (с. 95–112). Routledge. https://doi.org/10.4324/9781315105048-5
Lyashevskaya, O., Vlasova, E., & Litvintseva, K. (2019). Lexical diversity and colour hues in Russian poetry: A corpus based study of adjectives. В кн.: P. Plecháč, M. Skulacheva, & R. Piłś (Eds.), Quantitative approaches to versification (с. 131–141). Institute of Czech Literature of the Czech Academy of Sciences.
Malvern, D., Richards, B., Chipere, N., & Durán, P. (2004). Lexical diversity and language development (с. 16–30). Palgrave Macmillan UK.
MacKay, D. J. (2003). Information theory, inference and learning algorithms. Cambridge: Cambridge University Press.
Piperski, A. (2023). Lexical diversity of Russian poets. В кн.: Literature, language and computing: Russian contribution (с. 113–120). Singapore: Springer Nature Singapore. https://doi.org/10.1007/978-981-99-3604-5_10
Piantadosi, S. T. (2014). Zipf’s word frequency law in natural language: A critical review and future directions. Psychonomic Bulletin & Review, 21(5), 1112–1130. https://doi.org/10.3758/s13423-014-0585-6. EDN: https://elibrary.ru/SFDFMF
Rosillo Rodes, P., San Miguel, M., & Sánchez, D. (2025). Entropy and type token ratio in gigaword corpora. Physical Review Research, 7(3), 033054. https://doi.org/10.48550/arXiv.2411.10227. EDN: https://elibrary.ru/XQTDHY
Sherstinova, T., & Martynenko, G. (2019, November). Linguistic and stylistic parameters for the study of literary language in the corpus of Russian short stories of the first third of the 20th century. В кн.: R. Piotrowski’s Readings in Language Engineering and Applied Linguistics: Proceedings of the III International Conference on Language Engineering and Applied Linguistics (PRLEAL 2019) (Saint Petersburg, Russia, с. 105–120).
Song, J., & Lei, L. (2025). Lexical bloom, syntactic retreat: Examining complexity trade offs within Classical Chinese evolution across two millennia. Corpus Linguistics and Linguistic Theory. https://doi.org/10.1515/cllt-2024-0125. EDN: https://elibrary.ru/ZMAJJX
Zipf, G. K. (1972). Human behavior and the principle of least effort: An introduction to human ecology. Hafner.
Список источников и словарей
Национальный корпус русского языка (НКРЯ) [Электронный ресурс]. (2003–2025). Скачиваемые корпуса. Получено 19.10.2025, из: https://ruscorpora.ru/page/corpora-datasets/
Диахронический словарь русской лексики [Электронный ресурс] / Казанский (Приволжский) федеральный университет, Институт филологии и межкультурной коммуникации. Получено 20.10.2025, из: https://kpfu.ru/philology-culture/struktura-instituta/nauchno-obrazovatelnye-centry-noc/noc-po-lingvistike-im-ia-boduena-de-kurtene/nil-39kvantitativnaya-lingvistika39/diahronicheskij-slovar.html
Засорина, Л. Н. (Ред.). (1977). Частотный словарь русского языка: около 40 000 слов. Москва: Русский язык.
Ляшевская, О. Н., & Шаров, С. А. (2009). Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). Москва: Азбуковник. Получено 20.10.2025, из: http://dict.ruslang.ru/freq.php
Штейфельдт, Э. А. (1963). Частотный словарь современного русского литературного языка: 2500 наиболее употребительных слов: пособие для преподавателей русского языка. Таллин: Издательство «Юхисэлу».
Lönngren, L. (1993). The frequency dictionary of modern Russian. Acta Univ. Ups., Studia Slavica Upsaliensia. Uppsala.
Josselson, H. (1953). The Russian word count and frequency analysis of grammatical categories of standard literary Russian.
References
Zav’yalova, I. S., & Sherstinova, T. Yu. (2022). On morphological differences in the texts of Russian short prose from 1900 to 1930. Man: Image and Essence. Humanitarian Aspects, (2), 176–204. https://doi.org/10.31249/chel/2022.02.12. EDN: https://elibrary.ru/OEIGOJ
Komarkova, M. A. (2021). Trends in linguistic changes in modern English. Modern Pedagogical Education, (6), 153–155. EDN: https://elibrary.ru/DNEYUT
Martynenko, G. Ya., Sherstinova, T. Yu., Popova, T. I., Melnik, A. G., & Zamirailova, E. V. (2018). On the principles of creating a corpus of Russian short stories from the first third of the 20th century. In: Proceedings of the International Conference on Computational and Cognitive Linguistics (pp. 180–197). EDN: https://elibrary.ru/YFFGSO
Solovyev, V. D. (2012). Statistical methods for analyzing diachronic text corpora as a tool for studying language dynamics. In: Materials of the International Conference “Russian Language: Functioning and Development” (p. 47). Kazan: Kazan University.
Cherkasova, G. A. (2015). Comparative studies of the coefficients of “Lexical Diversity” and “Lexical Richness” by Yu. N. Karaulov based on Russian associative dictionaries. Journal of Psycholinguistics, (25), 93–104. EDN: https://elibrary.ru/UDLHEJ
Sherstinova, T. Yu., & Zav’yalova, I. S. (2022). Dynamics of distribution of part of speech and grammatical categories in Russian short stories of 1900–1930. In: Russian Grammar in the Dialogue of Scientific Schools, Directions, and Methods (p. 324). EDN: https://elibrary.ru/LLVVYK
Sherstinova, T. Yu. (2021). Russian literature of 1900–1930: what changed in language and style after the October Revolution? In: Second Russian Aesthetic Congress (pp. 622–624). EDN: https://elibrary.ru/PZGGQT
Sherstinova, T. Yu., Kolpashchikova, E. O., Seinova, A. R., Maksimenko, P. I., & Rodionov, R. A. (2023). Russian short story of 1900–1930 and its reader perception: an experience of quantitative analysis of literary text evaluation. Man: Image and Essence. Humanitarian Aspects, (2), 164–184. https://doi.org/10.31249/chel/2023.02.09. EDN: https://elibrary.ru/GZYNIO
Yuldasheva, L. U. (2023). Studying the lexical array of the Russian language: issues of preserving and losing words in the modern era. Journal of Multidisciplinary Bulletin, 6(5), 458–466.
Blinova, O. V., Belov, S., & Revazov, M. A. (2021). Decisions of Russian Constitutional Court: lexical complexity analysis in shallow diachrony. In: CEUR Workshop Proceedings (pp. 61–74).
Bochkarev, V. V., Solovyev, V. D., Nestik, T. A., & Shevlyakova, A. V. (2024). Variations in average word valence of Russian books over a century and social change. Journal of Mathematical Sciences, 285(1), 14–27. https://doi.org/10.1007/s10958-024-07419-z. EDN: https://elibrary.ru/QYDSPS
Buntinx, V., & Kaplan, F. (2018). Negentropic linguistic evolution: a comparison of seven languages. In: Digital Humanities 2018: Book of Abstracts / Libro de resúmenes.
Dunn, J., Coupe, T., & Adams, B. (2020, November). Measuring linguistic diversity during COVID 19. In: Proceedings of the Fourth Workshop on Natural Language Processing and Computational Social Science (pp. 1–10). https://doi.org/10.18653/v1/2020.nlpcss-1.1
Fomin, V., Bakshandaeva, D., Rodina, Ju., & Kutuzov, A. (2019). Tracing cultural diachronic semantic shifts in Russian using word embeddings. In: Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2019” (Moscow, May 29 – June 1, 2019). Получено из: https://arxiv.org/pdf/1905.06837
Gries, S. T. (2021). Statistics for linguistics with R: A practical introduction (3rd ed.). Berlin: De Gruyter Mouton. https://doi.org/10.1515/9783110718256
Jost, L. (2006). Entropy and diversity. Oikos, 113(2), 363–375. https://doi.org/10.1111/j.2006.0030-1299
Kutuzov, A., & Kuzmenko, E. (2018). Two centuries in two thousand words: Neural embedding models in detecting diachronic lexical changes. In: Quantitative approaches to the Russian language (pp. 95–112). Routledge. https://doi.org/10.4324/9781315105048-5
Lyashevskaya, O., Vlasova, E., & Litvintseva, K. (2019). Lexical diversity and colour hues in Russian poetry: A corpus based study of adjectives. In: P. Plecháč, M. Skulacheva, & R. Piłś (Eds.), Quantitative approaches to versification (pp. 131–141). Institute of Czech Literature of the Czech Academy of Sciences.
Malvern, D., Richards, B., Chipere, N., & Durán, P. (2004). Lexical diversity and language development (pp. 16–30). Palgrave Macmillan UK.
MacKay, D. J. (2003). Information theory, inference and learning algorithms. Cambridge: Cambridge University Press.
Piperski, A. (2023). Lexical diversity of Russian poets. In: Literature, language and computing: Russian contribution (pp. 113–120). Singapore: Springer Nature Singapore. https://doi.org/10.1007/978-981-99-3604-5_10
Piantadosi, S. T. (2014). Zipf’s word frequency law in natural language: A critical review and future directions. Psychonomic Bulletin & Review, 21(5), 1112–1130. https://doi.org/10.3758/s13423-014-0585-6. EDN: https://elibrary.ru/SFDFMF
Rosillo Rodes, P., San Miguel, M., & Sánchez, D. (2025). Entropy and type token ratio in gigaword corpora. Physical Review Research, 7(3), 033054. https://doi.org/10.48550/arXiv.2411.10227. EDN: https://elibrary.ru/XQTDHY
Sherstinova, T., & Martynenko, G. (2019, November). Linguistic and stylistic parameters for the study of literary language in the corpus of Russian short stories of the first third of the 20th century. In: R. Piotrowski’s Readings in Language Engineering and Applied Linguistics: Proceedings of the III International Conference on Language Engineering and Applied Linguistics (PRLEAL 2019) (Saint Petersburg, Russia, pp. 105–120).
Song, J., & Lei, L. (2025). Lexical bloom, syntactic retreat: Examining complexity trade offs within Classical Chinese evolution across two millennia. Corpus Linguistics and Linguistic Theory. https://doi.org/10.1515/cllt-2024-0125. EDN: https://elibrary.ru/ZMAJJX
Zipf, G. K. (1972). Human behavior and the principle of least effort: An introduction to human ecology. Hafner.
Sources and dictionaries
National Corpus of the Russian Language (NCRL) [Electronic resource]. (2003–2025). Downloadable corpora. Retrieved on October 19, 2025, from: https://ruscorpora.ru/page/corpora-datasets/
Diachronic dictionary of Russian vocabulary [Electronic resource] / Kazan (Volga Region) Federal University, Institute of Philology and Intercultural Communication. Retrieved on October 20, 2025, from: https://kpfu.ru/philology-culture/struktura-instituta/nauchno-obrazovatelnye-centry-noc/noc-po-lingvistike-im-ia-boduena-de-kurtene/nil-39kvantitativnaya-lingvistika39/diahronicheskij-slovar.html
Zasorina, L. N. (Ed.). (1977). Frequency dictionary of the Russian language: about 40 000 words. Moscow: Russkiy Yazyk.
Lyashevskaya, O. N., & Sharov, S. A. (2009). Frequency dictionary of modern Russian (based on materials from the National Corpus of the Russian Language). Moscow: Azbukovnik. Retrieved on October 20, 2025, from: http://dict.ruslang.ru/freq.php
Shteyfeldt, E. A. (1963). Frequency dictionary of modern standard Russian literature: 2500 most common words: a guide for Russian language teachers. Tallinn: Yuhiselu Publishing House.
Lönngren, L. (1993). The frequency dictionary of modern Russian. Acta Univ. Ups., Studia Slavica Upsaliensia. Uppsala.
Josselson, H. (1953). The Russian word count and frequency analysis of grammatical categories of standard literary Russian.
Copyright (c) 2026 Tatiana A. Rychkova

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
































