Конкорданс
Конкорда́нс (от лат. лат. concordare — «соответствовать», «совпадать») — в текстологии традиционно алфавитный перечень наиболее значимых слов и фраз, использованных в письменном произведении. Понятие возникло в библеистике, но играет важную роль и в литературоведении, смежных дисциплинах, а в последние десятилетия — особенно в корпусной лингвистике, входящей в языкознание. В этой области конкорданс может также охватывать слова и фразы, происходящие из устных текстов[1].
В настоящее время конкордансы, как правило, представляют собой электронные списки найденных соответствий, получаемые поиском, чаще всего по слову или фразе, но потенциально и по любой определяемой пользователем последовательности символов. Как правило, в конкордансе также отображается ближайшее языковое окружение искомого выражения, то есть контекст — например, всё то предложение, в котором встречается искомое слово.
В качестве синонимов «конкорданса» иногда используются термины реестр, индекс или Index verborum («указатель слов»). В корпусной и компьютерной лингвистике также широко распространены английские термины Key Word in Context (KWIC, ключевое слово в контексте) и его аббревиатура KWIC, обозначающие поисковое слово, отображаемое в конкордансе[2].
Создание
До появления современных средств обработки данных составление конкордансов было крайне трудоёмким и затратным процессом. Поэтому такие списки создавались лишь для тех произведений, к которым проявлялся особый интерес, например, для религиозных текстов (Библия, Коран, Ригведа) или крупных писательских корпусов (например, произведения Уильяма Шекспира). Уже в Средние века под латинским наименованием concordantia составлялись сборники примеров из Библии и других церковных/канонических текстов.
Типологически различают две основные разновидности:
- Глагольные конкордансы — алфавитные списки всех встречающихся слов и выражений с указанием местонахождения в тексте;
- Реальные конкордансы — тематически упорядоченные сопоставления всех мест, связанных с каким-либо понятием или предметом[1].
Поскольку сегодня крупнейшие литературные произведения доступны в оцифрованном виде, конкордансы обычно составляются с помощью специального программного обеспечения, что позволяет реализовать гибкий поиск по словам и фразам, аналогично поисковым системам Всемирной паутины (полнотекстовый поиск)[3]. Существует множество специализированных продуктов для разных целей: для Библии — специализированные библейские программы, для корпусной лингвистики — такие как WordSmith, причём часть программ работает онлайн. Принцип применим не только к литературным корпусам, но и к словарям, энциклопедиям, собрания художественных текстов. В корпусной лингвистике, развитие которой стало возможно лишь благодаря цифровым технологиям, конкордансы генерируются либо для специально подготовленного корпуса текстов в рамках конкретного исследования, либо на основе уже имеющихся, часто также онлайн-доступных текстовых баз данных.
Ранние электронные конкордансы издавались в печатном виде, например, для древнегреческих поэтов Гесиода[4] и Гомера[5] в 1977 году. Формат этих работ близок к современным компьютерным конкордансам: одна строка — одно вхождение, и искомое слово помещается по центру. В современных электронных системах объём выводимого контекста можно варьировать — например, указав нужное количество строк, весь абзац или только предложение.
Отличия традиционных и электронных конкордансов
Электронно подготовленные конкордансы устраняют ряд ограничений традиционных. Особенно меняется акцент на поиске по отдельным словам:
- Ранее слова для поиска в корпусе выбирались экспертно, по содержательному анализу, сегодня же акцент переносится на формальные критерии.
- Прежние конкордансы возвращали слова в их базовой форме (лемматизация), а современные системы позволяют анализировать все встречающиеся форма слова — спрягаемые и склоняемые.
- Поисковый запрос может быть не только словом, но и целой последовательностью, фрагментом текста: ведь слова всегда включены в словосочетания, а современные системы позволяют автоматически проверять частоту их вхождений в определённых конструкциях, вплоть до цитат и плагиатов.
В целом современные электронные конкордансы во многом отличаются от традиционных печатных:
- Полнота: если не задано иного, электронный конкорданс обеспечивает полную выборку всех соответствий в корпусе.
- Критерий поиска: в традиционных конкордансах он был смысловым, а электронные в первую очередь ищут соответствия форм, хотя при необходимости можно реализовать и поиск по лемме (что является открытой методологической задачей филологии).
- Варианты поиска: цифровые корпусы позволяют искать не только по формам слова, но и по сочетаниям (даже если они не образуют устойчивую фразу), а также по совокупностям слов, необязательно следующих друг за другом.
Программное обеспечение для создания конкордансов
Развитие программного обеспечения для создания конкордансов (конкордансеров) прошло несколько этапов, тесно связанных с эволюцией вычислительной техники: от программ для больших ЭВМ к настольным приложениям и современным веб-платформам с элементами искусственного интеллекта.
Конец 1970-х — 1980-е: эпоха мейнфреймов В этот период основным инструментом был Oxford Concordance Program (OCP)[6]. Проект по его созданию начался в 1978 году, а первая версия, написанная на языке Fortran, была выпущена в 1981 году. Программа предназначалась для создания конкордансов и индексов для текстов на разных языках и в 1980-е годы использовалась примерно в 240 учреждениях по всему миру[7]. С распространением персональных компьютеров в 1985–1986 годах появилась адаптированная версия Micro-OCP для DOS, что ознаменовало начало перехода к работе на индивидуальных машинах[7]. В эти же годы в лингвистике закрепились ключевые термины, такие как «корпус», «конкордансер» и «разметка»[8].
1990-е: революция персональных компьютеров Появление мощных ПК с графическим интерфейсом сделало корпусные инструменты более доступными. Важным шагом стала программа MicroConcord (1993), разработанная Майком Скоттом и Тимом Джонсом[9]. На её основе Майк Скотт в 1996 году создал WordSmith Tools — пакет программ, который на долгие годы стал стандартом де-факто для многих лингвистов[9][10]. Он включал модули для построения конкордансов (Concord), частотных списков (WordList) и анализа ключевых слов (KeyWord). К концу десятилетия программы были способны обрабатывать корпусы объёмом в десятки миллионов слов и поддерживали различные кодировки, что позволяло анализировать тексты на многих языках[9].
После 2006: переход к веб-платформам и развитие настольных приложений В этот период произошёл переход от локальных программ к мощным веб-сервисам. Ключевой платформой стал Sketch Engine, предоставляющий доступ к корпусам на более чем 100 языках и известный своей функцией «словесных профилей» (word sketches) — автоматических сводок грамматического и коллокационного поведения слова[11][12]. В это же время активно развивался Национальный корпус русского языка (НКРЯ), пополняясь специализированными подкорпусами: поэтическим (2006), устным (2007) и акцентологическим (2008)[13].
Параллельно продолжилось развитие настольных приложений. Популярность приобрёл бесплатный конкордансер AntConc Лоуренса Энтони, который постоянно обновлялся, получая новые статистические метрики[14]. В 2015 году появилось программное обеспечение нового поколения LancsBox, разработанное в Ланкастерском университете с акцентом на визуализацию языковых данных, в частности сетей коллокаций[15][16].
Современные тенденции (после 2015 года) Современный этап характеризуется интеграцией машинного обучения и нейросетевых моделей для автоматической разметки текстов, что позволяет обрабатывать огромные массивы неструктурированных данных[17][18]. Получил распространение методологический подход «дальнего чтения» (Distant Reading), смещающий фокус с анализа отдельных контекстов на выявление глобальных закономерностей в больших данных[19]. Активно создаются новые типы корпусов: мультимодальные (синхронизирующие текст с аудио и видео)[20] и корпусы на материале социальных сетей[18].
Знаковым событием для русскоязычной лингвистики стал проект по созданию платформы НКРЯ 2.0 (2020–2023)[21][22]. В рамках обновления были добавлены новые подкорпусы (включая корпус социальных сетей и панхронический корпус), внедрена разметка на основе нейросетей и появились инструменты для статистики и визуализации данных, например, для построения графиков частотности слов во времени[23][24].
Использование
В зависимости от научной области, исследовательских целей, используемого программного обеспечения, характеристик конкорданса (выбор корпуса, единицы поиска, глубина контекста) возможны различные сценарии применения:
- В библеистике (с помощью библейских конкордансов) можно точно определить, где находится определённый термин в разных изданиях Библии, что важно для анализа переводов.
- В литературоведении — выяснить, как часто, в каких произведениях, в каких контекстах исследуемое слово употребляет тот или иной писатель (данные для анализа идиолекта).
- В лексикографии — установить разные значения слова на примере его употребления, исследовать диапазон значений и динамику языкового изменения.
- В общем языкознании — узнать, в каких формах и с какими словами чаще всего комбинируется изучаемое слово, а также сравнить его употребление в письменной и устной речи.
- В исследованиях по преподаванию языков — выяснить, насколько часто учащиеся правильно или ошибочно употребляют определённые конструкции, что влияет на дизайн учебных материалов.
Современные технологии позволяют анализировать и частотность любых групп элементов (слов, символов, т. н. N-граммы) и тем самым отслеживать, где и в каких контекстах встречаются особые словосочетания, коллокации, идиоматические выражения, отсылки, формульные конструкции и прочее, что имеет ценность для специализированных исследований.
Примечания
- ↑ 1 2 Glück, Хельмут. Metzler Lexikon Sprache : [нем.]. — 3-й перераб. изд. — Metzler, 2005. — ISBN 3-476-02056-8.
- ↑ Schérer, Кармен. Korpuslinguistik : [нем.]. — Winter, 2006. — ISBN 3-8253-5164-5.
- ↑ Sinclair, Джон. Corpus, Concordance, Collocation : [англ.]. — 4-е издание. — Oxford University Press, 1997. — ISBN 0-19-437144-1.
- ↑ Tebben, Joseph R. Hesiod-Konkordanz. A Computer Concordance to Hesiod : [англ.]. — Olms, 1977. — ISBN 3-487-06268-2.
- ↑ Tebben, Joseph R. Homer-Konkordanz. A Computer Concordance to the Homeric Hymns : [англ.]. — Olms, 1977. — ISBN 3-487-06270-4.
- ↑ Oxford Concordance Program (OCP) (англ.). SSH Open Marketplace. Дата обращения: 3 ноября 2025. Архивировано 24 мая 2024 года.
- ↑ 1 2 Oxford Concordance Program (OCP) (англ.). University of Oxford. Дата обращения: 3 ноября 2025. Архивировано 27 января 1999 года.
- ↑ История развития корпусной лингвистики. Тверской государственный университет. Дата обращения: 3 ноября 2025.
- ↑ 1 2 3 WordSmith Tools: Distinguishing Features (англ.). University of Surrey. Дата обращения: 3 ноября 2025. Архивировано 5 декабря 2023 года.
- ↑ Developing WordSmith (англ.). ResearchGate. Дата обращения: 3 ноября 2025.
- ↑ Sketch Engine. Элементы.ру. Дата обращения: 3 ноября 2025. Архивировано 20 июня 2022 года.
- ↑ Языки запросов в корпусных менеджерах Sketch Engine и ruSkell. Альба (2018). Дата обращения: 3 ноября 2025. Архивировано 17 августа 2022 года.
- ↑ Национальный корпус русского языка как инструмент для исследования и преподавания русского языка. Уральский федеральный университет (2016). Дата обращения: 3 ноября 2025. Архивировано 2 мая 2024 года.
- ↑ AntConc Version History (англ.). Laurence Anthony's Software. Дата обращения: 3 ноября 2025. Архивировано 11 апреля 2022 года.
- ↑ LancsBox (англ.). CLARIN-UK. Дата обращения: 3 ноября 2025. Архивировано 13 августа 2025 года.
- ↑ LancsBox (англ.). SSH Open Marketplace. Дата обращения: 3 ноября 2025.
- ↑ Национальный корпус русского языка 2.0: цели, задачи, решения. Высшая школа экономики (2024). Дата обращения: 3 ноября 2025.
- ↑ 1 2 Национальный корпус русского языка 2.0. Вопросы языкознания (2024). Дата обращения: 3 ноября 2025. Архивировано 12 июля 2025 года.
- ↑ Конкорданс произведения: о происхождении, развитии и применении. АПНИ. Дата обращения: 3 ноября 2025.
- ↑ Национальный корпус русского языка 2.0: архитектура, разметка, интерфейс. Диалог (2020). Дата обращения: 3 ноября 2025. Архивировано 14 мая 2025 года.
- ↑ Проект «Национальный корпус русского языка 2.0». Российский центр научной информации (2023). Дата обращения: 3 ноября 2025. Архивировано 1 июля 2025 года.
- ↑ Национальный корпус русского языка 2.0: новые возможности для лингвистических исследований. Тверской государственный университет. Дата обращения: 3 ноября 2025.
- ↑ Корпусная лингвистика и NLP. ЛЭТИ. Дата обращения: 3 ноября 2025.
Литература
- Хельмут Глюк (ред.), при участии Фридерике Шме: Metzler Lexikon Sprache. 3-е, перераб. изд. Metzler, Штутгарт-Веймар 2005. ISBN 3-476-02056-8 (статья «Конкорданс»).
- Кармен Шерер: Korpuslinguistik. Winter, Гейдельберг 2006. ISBN 3-8253-5164-5.
- Джон Синклер: Corpus, Concordance, Collocation. 4-е изд. Oxford University Press, Оксфорд 1997. ISBN 0-19-437144-1.