Материал из РУВИКИ — свободной энциклопедии

Конкорданс

Конкорда́нс (от лат. лат. concordare — «соответствовать», «совпадать») — в текстологии традиционно алфавитный перечень наиболее значимых слов и фраз, использованных в письменном произведении. Понятие возникло в библеистике, но играет важную роль и в литературоведении, смежных дисциплинах, а в последние десятилетия — особенно в корпусной лингвистике, входящей в языкознание. В этой области конкорданс может также охватывать слова и фразы, происходящие из устных текстов[1].

В настоящее время конкордансы, как правило, представляют собой электронные списки найденных соответствий, получаемые поиском, чаще всего по слову или фразе, но потенциально и по любой определяемой пользователем последовательности символов. Как правило, в конкордансе также отображается ближайшее языковое окружение искомого выражения, то есть контекст — например, всё то предложение, в котором встречается искомое слово.

В качестве синонимов «конкорданса» иногда используются термины реестр, индекс или Index verborum («указатель слов»). В корпусной и компьютерной лингвистике также широко распространены английские термины Key Word in Context (KWIC, ключевое слово в контексте) и его аббревиатура KWIC, обозначающие поисковое слово, отображаемое в конкордансе[2].

До появления современных средств обработки данных составление конкордансов было крайне трудоёмким и затратным процессом. Поэтому такие списки создавались лишь для тех произведений, к которым проявлялся особый интерес, например, для религиозных текстов (Библия, Коран, Ригведа) или крупных писательских корпусов (например, произведения Уильяма Шекспира). Уже в Средние века под латинским наименованием concordantia составлялись сборники примеров из Библии и других церковных/канонических текстов.

Типологически различают две основные разновидности:

  • Глагольные конкордансы — алфавитные списки всех встречающихся слов и выражений с указанием местонахождения в тексте;
  • Реальные конкордансы — тематически упорядоченные сопоставления всех мест, связанных с каким-либо понятием или предметом[1].

Поскольку сегодня крупнейшие литературные произведения доступны в оцифрованном виде, конкордансы обычно составляются с помощью специального программного обеспечения, что позволяет реализовать гибкий поиск по словам и фразам, аналогично поисковым системам Всемирной паутины (полнотекстовый поиск)[3]. Существует множество специализированных продуктов для разных целей: для Библии — специализированные библейские программы, для корпусной лингвистики — такие как WordSmith, причём часть программ работает онлайн. Принцип применим не только к литературным корпусам, но и к словарям, энциклопедиям, собрания художественных текстов. В корпусной лингвистике, развитие которой стало возможно лишь благодаря цифровым технологиям, конкордансы генерируются либо для специально подготовленного корпуса текстов в рамках конкретного исследования, либо на основе уже имеющихся, часто также онлайн-доступных текстовых баз данных.

Ранние электронные конкордансы издавались в печатном виде, например, для древнегреческих поэтов Гесиода[4] и Гомера[5] в 1977 году. Формат этих работ близок к современным компьютерным конкордансам: одна строка — одно вхождение, и искомое слово помещается по центру. В современных электронных системах объём выводимого контекста можно варьировать — например, указав нужное количество строк, весь абзац или только предложение.

Отличия традиционных и электронных конкордансов[править | править код]

Электронно подготовленные конкордансы устраняют ряд ограничений традиционных. Особенно меняется акцент на поиске по отдельным словам:

  • Ранее слова для поиска в корпусе выбирались экспертно, по содержательному анализу, сегодня же акцент переносится на формальные критерии.
  • Прежние конкордансы возвращали слова в их базовой форме (лемматизация), а современные системы позволяют анализировать все встречающиеся форма слова — спрягаемые и склоняемые.
  • Поисковый запрос может быть не только словом, но и целой последовательностью, фрагментом текста: ведь слова всегда включены в словосочетания, а современные системы позволяют автоматически проверять частоту их вхождений в определённых конструкциях, вплоть до цитат и плагиатов.

В целом современные электронные конкордансы во многом отличаются от традиционных печатных:

  • Полнота: если не задано иного, электронный конкорданс обеспечивает полную выборку всех соответствий в корпусе.
  • Критерий поиска: в традиционных конкордансах он был смысловым, а электронные в первую очередь ищут соответствия форм, хотя при необходимости можно реализовать и поиск по лемме (что является открытой методологической задачей филологии).
  • Варианты поиска: цифровые корпусы позволяют искать не только по формам слова, но и по сочетаниям (даже если они не образуют устойчивую фразу), а также по совокупностям слов, необязательно следующих друг за другом.

Программное обеспечение для создания конкордансов[править | править код]

Развитие программного обеспечения для создания конкордансов (конкордансеров) прошло несколько этапов, тесно связанных с эволюцией вычислительной техники: от программ для больших ЭВМ к настольным приложениям и современным веб-платформам с элементами искусственного интеллекта.

Конец 1970-х — 1980-е: эпоха мейнфреймов В этот период основным инструментом был Oxford Concordance Program (OCP)[6]. Проект по его созданию начался в 1978 году, а первая версия, написанная на языке Fortran, была выпущена в 1981 году. Программа предназначалась для создания конкордансов и индексов для текстов на разных языках и в 1980-е годы использовалась примерно в 240 учреждениях по всему миру[7]. С распространением персональных компьютеров в 1985–1986 годах появилась адаптированная версия Micro-OCP для DOS, что ознаменовало начало перехода к работе на индивидуальных машинах[7]. В эти же годы в лингвистике закрепились ключевые термины, такие как «корпус», «конкордансер» и «разметка»[8].

1990-е: революция персональных компьютеров Появление мощных ПК с графическим интерфейсом сделало корпусные инструменты более доступными. Важным шагом стала программа MicroConcord (1993), разработанная Майком Скоттом и Тимом Джонсом[9]. На её основе Майк Скотт в 1996 году создал WordSmith Tools — пакет программ, который на долгие годы стал стандартом де-факто для многих лингвистов[9][10]. Он включал модули для построения конкордансов (Concord), частотных списков (WordList) и анализа ключевых слов (KeyWord). К концу десятилетия программы были способны обрабатывать корпусы объёмом в десятки миллионов слов и поддерживали различные кодировки, что позволяло анализировать тексты на многих языках[9].

После 2006: переход к веб-платформам и развитие настольных приложений В этот период произошёл переход от локальных программ к мощным веб-сервисам. Ключевой платформой стал Sketch Engine, предоставляющий доступ к корпусам на более чем 100 языках и известный своей функцией «словесных профилей» (word sketches) — автоматических сводок грамматического и коллокационного поведения слова[11][12]. В это же время активно развивался Национальный корпус русского языка (НКРЯ), пополняясь специализированными подкорпусами: поэтическим (2006), устным (2007) и акцентологическим (2008)[13].

Параллельно продолжилось развитие настольных приложений. Популярность приобрёл бесплатный конкордансер AntConc Лоуренса Энтони, который постоянно обновлялся, получая новые статистические метрики[14]. В 2015 году появилось программное обеспечение нового поколения LancsBox, разработанное в Ланкастерском университете с акцентом на визуализацию языковых данных, в частности сетей коллокаций[15][16].

Современные тенденции (после 2015 года) Современный этап характеризуется интеграцией машинного обучения и нейросетевых моделей для автоматической разметки текстов, что позволяет обрабатывать огромные массивы неструктурированных данных[17][18]. Получил распространение методологический подход «дальнего чтения» (Distant Reading), смещающий фокус с анализа отдельных контекстов на выявление глобальных закономерностей в больших данных[19]. Активно создаются новые типы корпусов: мультимодальные (синхронизирующие текст с аудио и видео)[20] и корпусы на материале социальных сетей[18].

Знаковым событием для русскоязычной лингвистики стал проект по созданию платформы НКРЯ 2.0 (2020–2023)[21][22]. В рамках обновления были добавлены новые подкорпусы (включая корпус социальных сетей и панхронический корпус), внедрена разметка на основе нейросетей и появились инструменты для статистики и визуализации данных, например, для построения графиков частотности слов во времени[23][24].

Использование

[править | править код]

В зависимости от научной области, исследовательских целей, используемого программного обеспечения, характеристик конкорданса (выбор корпуса, единицы поиска, глубина контекста) возможны различные сценарии применения:

  • В библеистике (с помощью библейских конкордансов) можно точно определить, где находится определённый термин в разных изданиях Библии, что важно для анализа переводов.
  • В литературоведении — выяснить, как часто, в каких произведениях, в каких контекстах исследуемое слово употребляет тот или иной писатель (данные для анализа идиолекта).
  • В лексикографии — установить разные значения слова на примере его употребления, исследовать диапазон значений и динамику языкового изменения.
  • В общем языкознании — узнать, в каких формах и с какими словами чаще всего комбинируется изучаемое слово, а также сравнить его употребление в письменной и устной речи.
  • В исследованиях по преподаванию языков — выяснить, насколько часто учащиеся правильно или ошибочно употребляют определённые конструкции, что влияет на дизайн учебных материалов.

Современные технологии позволяют анализировать и частотность любых групп элементов (слов, символов, т. н. N-граммы) и тем самым отслеживать, где и в каких контекстах встречаются особые словосочетания, коллокации, идиоматические выражения, отсылки, формульные конструкции и прочее, что имеет ценность для специализированных исследований.

Примечания

[править | править код]
  1. 1 2 Glück, Хельмут. Metzler Lexikon Sprache : [нем.]. — 3-й перераб. изд. — Metzler, 2005. — ISBN 3-476-02056-8.
  2. Schérer, Кармен. Korpuslinguistik : [нем.]. — Winter, 2006. — ISBN 3-8253-5164-5.
  3. Sinclair, Джон. Corpus, Concordance, Collocation : [англ.]. — 4-е издание. — Oxford University Press, 1997. — ISBN 0-19-437144-1.
  4. Tebben, Joseph R. Hesiod-Konkordanz. A Computer Concordance to Hesiod : [англ.]. — Olms, 1977. — ISBN 3-487-06268-2.
  5. Tebben, Joseph R. Homer-Konkordanz. A Computer Concordance to the Homeric Hymns : [англ.]. — Olms, 1977. — ISBN 3-487-06270-4.
  6. Oxford Concordance Program (OCP) (англ.). SSH Open Marketplace. Дата обращения: 3 ноября 2025. Архивировано 24 мая 2024 года.
  7. 1 2 Oxford Concordance Program (OCP) (англ.). University of Oxford. Дата обращения: 3 ноября 2025. Архивировано 27 января 1999 года.
  8. История развития корпусной лингвистики. Тверской государственный университет. Дата обращения: 3 ноября 2025.
  9. 1 2 3 WordSmith Tools: Distinguishing Features (англ.). University of Surrey. Дата обращения: 3 ноября 2025. Архивировано 5 декабря 2023 года.
  10. Developing WordSmith (англ.). ResearchGate. Дата обращения: 3 ноября 2025.
  11. Sketch Engine. Элементы.ру. Дата обращения: 3 ноября 2025. Архивировано 20 июня 2022 года.
  12. Языки запросов в корпусных менеджерах Sketch Engine и ruSkell. Альба (2018). Дата обращения: 3 ноября 2025. Архивировано 17 августа 2022 года.
  13. Национальный корпус русского языка как инструмент для исследования и преподавания русского языка. Уральский федеральный университет (2016). Дата обращения: 3 ноября 2025. Архивировано 2 мая 2024 года.
  14. AntConc Version History (англ.). Laurence Anthony's Software. Дата обращения: 3 ноября 2025. Архивировано 11 апреля 2022 года.
  15. LancsBox (англ.). CLARIN-UK. Дата обращения: 3 ноября 2025. Архивировано 13 августа 2025 года.
  16. LancsBox (англ.). SSH Open Marketplace. Дата обращения: 3 ноября 2025.
  17. Национальный корпус русского языка 2.0: цели, задачи, решения. Высшая школа экономики (2024). Дата обращения: 3 ноября 2025.
  18. 1 2 Национальный корпус русского языка 2.0. Вопросы языкознания (2024). Дата обращения: 3 ноября 2025. Архивировано 12 июля 2025 года.
  19. Конкорданс произведения: о происхождении, развитии и применении. АПНИ. Дата обращения: 3 ноября 2025.
  20. Современная корпусная лингвистика: что, где, зачем? SlideShare (21 апреля 2015). Дата обращения: 3 ноября 2025.
  21. Национальный корпус русского языка 2.0: архитектура, разметка, интерфейс. Диалог (2020). Дата обращения: 3 ноября 2025. Архивировано 14 мая 2025 года.
  22. Проект «Национальный корпус русского языка 2.0». Российский центр научной информации (2023). Дата обращения: 3 ноября 2025. Архивировано 1 июля 2025 года.
  23. Национальный корпус русского языка 2.0: новые возможности для лингвистических исследований. Тверской государственный университет. Дата обращения: 3 ноября 2025.
  24. Корпусная лингвистика и NLP. ЛЭТИ. Дата обращения: 3 ноября 2025.

Литература

[править | править код]
  • Хельмут Глюк (ред.), при участии Фридерике Шме: Metzler Lexikon Sprache. 3-е, перераб. изд. Metzler, Штутгарт-Веймар 2005. ISBN 3-476-02056-8 (статья «Конкорданс»).
  • Кармен Шерер: Korpuslinguistik. Winter, Гейдельберг 2006. ISBN 3-8253-5164-5.
  • Джон Синклер: Corpus, Concordance, Collocation. 4-е изд. Oxford University Press, Оксфорд 1997. ISBN 0-19-437144-1.