Конкорданс

Конкорда́нс (от лат. лат. concordare — «соответствовать», «совпадать») — в текстологии традиционно алфавитный перечень наиболее значимых слов и фраз, использованных в письменном произведении. Понятие возникло в библеистике, но играет важную роль и в литературоведении, смежных дисциплинах, а в последние десятилетия — особенно в корпусной лингвистике, входящей в языкознание. В этой области конкорданс может также охватывать слова и фразы, происходящие из устных текстов[1].

В настоящее время конкордансы, как правило, представляют собой электронные списки найденных соответствий, получаемые поиском, чаще всего по слову или фразе, но потенциально и по любой определяемой пользователем последовательности символов. Как правило, в конкордансе также отображается ближайшее языковое окружение искомого выражения, то есть контекст — например, всё то предложение, в котором встречается искомое слово.

В качестве синонимов «конкорданса» иногда используются термины реестр, индекс или Index verborum («указатель слов»). В корпусной и компьютерной лингвистике также широко распространены английские термины Key Word in Context (KWIC, ключевое слово в контексте) и его аббревиатура KWIC, обозначающие поисковое слово, отображаемое в конкордансе[2].

Создание

До появления современных средств обработки данных составление конкордансов было крайне трудоёмким и затратным процессом. Поэтому такие списки создавались лишь для тех произведений, к которым проявлялся особый интерес, например, для религиозных текстов (Библия, Коран, Ригведа) или крупных писательских корпусов (например, произведения Уильяма Шекспира). Уже в Средние века под латинским наименованием concordantia составлялись сборники примеров из Библии и других церковных/канонических текстов.

Типологически различают две основные разновидности:

  • Глагольные конкордансы — алфавитные списки всех встречающихся слов и выражений с указанием местонахождения в тексте;
  • Реальные конкордансы — тематически упорядоченные сопоставления всех мест, связанных с каким-либо понятием или предметом[1].

Поскольку сегодня крупнейшие литературные произведения доступны в оцифрованном виде, конкордансы обычно составляются с помощью специального программного обеспечения, что позволяет реализовать гибкий поиск по словам и фразам, аналогично поисковым системам Всемирной паутины (полнотекстовый поиск)[3]. Существует множество специализированных продуктов для разных целей: для Библии — специализированные библейские программы, для корпусной лингвистики — такие как WordSmith, причём часть программ работает онлайн. Принцип применим не только к литературным корпусам, но и к словарям, энциклопедиям, собрания художественных текстов. В корпусной лингвистике, развитие которой стало возможно лишь благодаря цифровым технологиям, конкордансы генерируются либо для специально подготовленного корпуса текстов в рамках конкретного исследования, либо на основе уже имеющихся, часто также онлайн-доступных текстовых баз данных.

Ранние электронные конкордансы издавались в печатном виде, например, для древнегреческих поэтов Гесиода[4] и Гомера[5] в 1977 году. Формат этих работ близок к современным компьютерным конкордансам: одна строка — одно вхождение, и искомое слово помещается по центру. В современных электронных системах объём выводимого контекста можно варьировать — например, указав нужное количество строк, весь абзац или только предложение.

Отличия традиционных и электронных конкордансов

Электронно подготовленные конкордансы устраняют ряд ограничений традиционных. Особенно меняется акцент на поиске по отдельным словам:

  • Ранее слова для поиска в корпусе выбирались экспертно, по содержательному анализу, сегодня же акцент переносится на формальные критерии.
  • Прежние конкордансы возвращали слова в их базовой форме (лемматизация), а современные системы позволяют анализировать все встречающиеся форма слова — спрягаемые и склоняемые.
  • Поисковый запрос может быть не только словом, но и целой последовательностью, фрагментом текста: ведь слова всегда включены в словосочетания, а современные системы позволяют автоматически проверять частоту их вхождений в определённых конструкциях, вплоть до цитат и плагиатов.

В целом современные электронные конкордансы во многом отличаются от традиционных печатных:

  • Полнота: если не задано иного, электронный конкорданс обеспечивает полную выборку всех соответствий в корпусе.
  • Критерий поиска: в традиционных конкордансах он был смысловым, а электронные в первую очередь ищут соответствия форм, хотя при необходимости можно реализовать и поиск по лемме (что является открытой методологической задачей филологии).
  • Варианты поиска: цифровые корпусы позволяют искать не только по формам слова, но и по сочетаниям (даже если они не образуют устойчивую фразу), а также по совокупностям слов, необязательно следующих друг за другом.

Программное обеспечение для создания конкордансов

Развитие программного обеспечения для создания конкордансов (конкордансеров) прошло несколько этапов, тесно связанных с эволюцией вычислительной техники: от программ для больших ЭВМ к настольным приложениям и современным веб-платформам с элементами искусственного интеллекта.

Конец 1970-х — 1980-е: эпоха мейнфреймов В этот период основным инструментом был Oxford Concordance Program (OCP)[6]. Проект по его созданию начался в 1978 году, а первая версия, написанная на языке Fortran, была выпущена в 1981 году. Программа предназначалась для создания конкордансов и индексов для текстов на разных языках и в 1980-е годы использовалась примерно в 240 учреждениях по всему миру[7]. С распространением персональных компьютеров в 1985–1986 годах появилась адаптированная версия Micro-OCP для DOS, что ознаменовало начало перехода к работе на индивидуальных машинах[7]. В эти же годы в лингвистике закрепились ключевые термины, такие как «корпус», «конкордансер» и «разметка»[8].

1990-е: революция персональных компьютеров Появление мощных ПК с графическим интерфейсом сделало корпусные инструменты более доступными. Важным шагом стала программа MicroConcord (1993), разработанная Майком Скоттом и Тимом Джонсом[9]. На её основе Майк Скотт в 1996 году создал WordSmith Tools — пакет программ, который на долгие годы стал стандартом де-факто для многих лингвистов[9][10]. Он включал модули для построения конкордансов (Concord), частотных списков (WordList) и анализа ключевых слов (KeyWord). К концу десятилетия программы были способны обрабатывать корпусы объёмом в десятки миллионов слов и поддерживали различные кодировки, что позволяло анализировать тексты на многих языках[9].

После 2006: переход к веб-платформам и развитие настольных приложений В этот период произошёл переход от локальных программ к мощным веб-сервисам. Ключевой платформой стал Sketch Engine, предоставляющий доступ к корпусам на более чем 100 языках и известный своей функцией «словесных профилей» (word sketches) — автоматических сводок грамматического и коллокационного поведения слова[11][12]. В это же время активно развивался Национальный корпус русского языка (НКРЯ), пополняясь специализированными подкорпусами: поэтическим (2006), устным (2007) и акцентологическим (2008)[13].

Параллельно продолжилось развитие настольных приложений. Популярность приобрёл бесплатный конкордансер AntConc Лоуренса Энтони, который постоянно обновлялся, получая новые статистические метрики[14]. В 2015 году появилось программное обеспечение нового поколения LancsBox, разработанное в Ланкастерском университете с акцентом на визуализацию языковых данных, в частности сетей коллокаций[15][16].

Современные тенденции (после 2015 года) Современный этап характеризуется интеграцией машинного обучения и нейросетевых моделей для автоматической разметки текстов, что позволяет обрабатывать огромные массивы неструктурированных данных[17][18]. Получил распространение методологический подход «дальнего чтения» (Distant Reading), смещающий фокус с анализа отдельных контекстов на выявление глобальных закономерностей в больших данных[19]. Активно создаются новые типы корпусов: мультимодальные (синхронизирующие текст с аудио и видео)[20] и корпусы на материале социальных сетей[18].

Знаковым событием для русскоязычной лингвистики стал проект по созданию платформы НКРЯ 2.0 (2020–2023)[21][22]. В рамках обновления были добавлены новые подкорпусы (включая корпус социальных сетей и панхронический корпус), внедрена разметка на основе нейросетей и появились инструменты для статистики и визуализации данных, например, для построения графиков частотности слов во времени[23][24].

Использование

В зависимости от научной области, исследовательских целей, используемого программного обеспечения, характеристик конкорданса (выбор корпуса, единицы поиска, глубина контекста) возможны различные сценарии применения:

  • В библеистике (с помощью библейских конкордансов) можно точно определить, где находится определённый термин в разных изданиях Библии, что важно для анализа переводов.
  • В литературоведении — выяснить, как часто, в каких произведениях, в каких контекстах исследуемое слово употребляет тот или иной писатель (данные для анализа идиолекта).
  • В лексикографии — установить разные значения слова на примере его употребления, исследовать диапазон значений и динамику языкового изменения.
  • В общем языкознании — узнать, в каких формах и с какими словами чаще всего комбинируется изучаемое слово, а также сравнить его употребление в письменной и устной речи.
  • В исследованиях по преподаванию языков — выяснить, насколько часто учащиеся правильно или ошибочно употребляют определённые конструкции, что влияет на дизайн учебных материалов.

Современные технологии позволяют анализировать и частотность любых групп элементов (слов, символов, т. н. N-граммы) и тем самым отслеживать, где и в каких контекстах встречаются особые словосочетания, коллокации, идиоматические выражения, отсылки, формульные конструкции и прочее, что имеет ценность для специализированных исследований.

Примечания

Литература

  • Хельмут Глюк (ред.), при участии Фридерике Шме: Metzler Lexikon Sprache. 3-е, перераб. изд. Metzler, Штутгарт-Веймар 2005. ISBN 3-476-02056-8 (статья «Конкорданс»).
  • Кармен Шерер: Korpuslinguistik. Winter, Гейдельберг 2006. ISBN 3-8253-5164-5.
  • Джон Синклер: Corpus, Concordance, Collocation. 4-е изд. Oxford University Press, Оксфорд 1997. ISBN 0-19-437144-1.