СинТагРус
СинТагРус (англ. SynTagRus, сокр. от англ. Syntactically Tagged Russian text corpus, «синтаксически аннотированный корпус русских текстов») — глубоко аннотированный корпус текстов русского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1 миллиона.
СинТагРус основан на идеологии многоцелевого лингвистического процессора ЭТАП. Особенностью корпуса является наличие нескольких уровней аннотации разной глубины, включая полную морфологическую и синтаксическую разметку со снятой омонимией. Языком разметки является XML.
СинТагРус распространяется по некоммерческой лицензии. Кроме того, корпус был также преобразован в различные форматы; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка.
Общие сведения
| СинТагРус | |
|---|---|
| Объем корпуса | более 1,1 миллиона слов |
| Язык | русский |
| Основные типы разметки | морфологическая, синтаксическая, лексико-семантическая |
| Составители | Лаборатория компьютерной лингвистики ИППИ РАН |
| Дата создания | 1998 год |
| Доступ | бесплатный |
| Лицензия | проприетарная |
| Сайт | proling.iitp.ru/ru/proje… |
История
Результатом появления в начале 1990-х годов корпусов с синтаксической разметкой стало развитие эмпирических методов в задачах обработки естественного языка. Причём использование таких корпусов нашло своё применение не только в контексте собственно синтаксического анализа, но и в ряде других задач, среди которых разрешение лексической многозначности, семантический анализ и др.[1]
К концу 1990-х годов для большинства основных европейских языков были созданы аннотированные корпусы, тогда как для русского языка таких корпусов фактически не существовало[2]. Более того, даже существовавшие на тот момент неразмеченные корпусы (например, Уппсальский корпус русских текстов) не были общедоступными[3].
По этим причинам с 1998 года[4] началась разработка первого аннотированного корпуса русского языка СинТагРус[2][5], ставшего впоследствии эталоном среди корпусов с синтаксической разметкой[6]. При этом разработчики принимали участие и в создании Национального корпуса русского языка; в частности, СинТагРус (с некоторыми ограничениями) является составной, но полностью автономной частью НКРЯ с момента создания последнего[7][8]. В НКРЯ для СинТагРуса (как подкорпуса) используется также название «глубоко аннотированный корпус»[9].
Разработка СинТагРуса осуществляется Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН[10].
Состав корпуса
Исходным материалом для СинТагРуса послужил Уппсальский корпус русских текстов: было взято около 10 000 предложений из текстов художественных произведений. Впоследствии в корпус были добавлены короткие (до 30 предложений) тексты, взятые с сайтов популярных новостных изданий (yandex.ru, rbc.ru, polit.ru, lenta.ru, strana.ru, news.ru)[2][11].
СинТагРус постоянно развивается и по состоянию на 2020 год насчитывает около 77 тысяч предложений (более 1,1 миллиона словоупотреблений)[12], взятых из текстов следующих жанров[13][8][14]:
- художественная проза XX века;
- современная научно-популярная литература;
- публицистика;
- биографии;
- газетные и журнальные статьи, опубликованные в период с 1960 года по настоящее время;
- новостные ленты (тексты общественно-политического, культурного, экономического и научно-технического характера).
Типы и формат разметки
Отличительной особенностью СинТагРуса по сравнению с другими аннотированными корпусами русского языка является наличие нескольких уровней аннотации разной глубины, которые могут извлекаться из корпуса независимо, причём количество этих уровней потенциально не ограничено. Языком разметки корпуса является XML, а формат разметки совместим с формализмом TEI, за исключением некоторых дополнительно введённых элементов и атрибутов[2]. В основном разметка произвольного текста осуществляется в два шага[11]:
- Предварительная разметка текста в автоматическом режиме средствами лингвистического процессора ЭТАП, являющегося практической реализацией модели «Смысл — Текст».
- Проверка и, в случае необходимости, корректирование разметки экспертом-лингвистом.
Далее будут перечислены имеющиеся в корпусе типы разметки.
Каждый текст в СинТагРусе разбит на предложения. Каждое предложение является элементом с именем S, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер предложения в тексте. Аналогично каждое предложение разбито на лексические элементы с именем W, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер слова в данном предложении[11]. Знаки препинания оформляются в виде текста тега предложения (с сохранением их относительного расположения в исходном тексте) и не выражаются собственными тегами[15].
Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписывается часть речи и морфологические характеристики, то есть значения соответствующих морфологических категорий. Для соответствующей словоформы лемма является значением атрибута LEMMA, а часть речи и морфологические характеристики совместно являются значением атрибута FEAT[8][16].
Описание морфологической разметки[17]
| Часть речи | Сокращение | Примеры |
|---|---|---|
| Существительное | S | завод, я |
| Прилагательное | A | новый, мой |
| Глагол | V | одеваться |
| Наречие | ADV | плохо, отчасти |
| Числительное | NUM | пять, 2 |
| Предлог | PR | под |
| Композит | COM | авиа, гидро |
| Союз | CONJ | и |
| Частица | PART | всё-таки |
| Междометие | INTJ | то-то |
| Слово — иноязычное вкрапление | NID | Whatsapp, Берлинер Цайтунг |
| Морфологическая характеристика | Сокращение | Примечание |
|---|---|---|
| Одушевлённость | ||
| Одушевлённое | ОД | |
| Неодушевлённое | НЕОД | |
| Род | ||
| Мужской | МУЖ | |
| Женский | ЖЕН | |
| Средний | СРЕД | |
| Число | ||
| Единственное | ЕД | |
| Множественное | МН | |
| Падеж | ||
| Именительный | ИМ | |
| Родительный | РОД | |
| Партитивный | ПАРТ | Указывается только для существительных, у которых эта форма графически отличается от формы родительного падежа |
| Дательный | ДАТ | |
| Винительный | ВИН | |
| Творительный | ТВОР | |
| Предложный | ПР | |
| Местный | МЕСТН | Указывается только для существительных, у которых эта форма графически отличается от формы предложного падежа |
| Звательный | ЗВ | Указывается только для существительных, у которых эта форма графически отличается от формы именительного падежа |
| Степень сравнения | ||
| Сравнительная | СРАВ | |
| Превосходная | ПРЕВ | |
| Краткость | ||
| Краткое | КР | |
| Репрезентация | ||
| Инфинитив | ИНФ | |
| Причастие | ПРИЧ | |
| Деепричастие | ДЕЕПР | |
| Наклонение | ||
| Изъявительное | ИЗЪЯВ | |
| Повелительное | ПОВ | |
| Вид | ||
| Несовершенный | НЕСОВ | |
| Совершенный | СОВ | |
| Время | ||
| Непрошедшее | НЕПРОШ | |
| Прошедшее | ПРОШ | |
| Настоящее | НАСТ | Приписывается только глаголу быть в личной форме |
| Лицо | ||
| Первое | 1-Л | Приписывается только глаголам |
| Второе | 2-Л | |
| Третье | 3-Л | |
| Залог | ||
| Страдательный | СТРАД | |
| Дополнительные характеристики | ||
| Словосложение | СЛ | |
| Смягчённая сравнительная степень | СМЯГ | |
Синтаксическая разметка предложений корпуса осуществляется в рамках грамматики зависимостей: синтаксической структурой является ориентированное дерево, узлами которого являются слова, а каждое ребро направлено от слова-хозяина к слову-слуге и соответствует некоторому синтаксическому отношению. Слово, соответствующее корню дерева, называется вершиной предложения и, в отличие от остальных слов предложения, синтаксически не зависит ни от какого другого. Синтаксические группы оформляются в виде поддеревьев исходного дерева: в каждом таком поддереве один из членов группы является её представителем во внешних связях и подчиняет остальные члены группы[18]. Всего в СинТагРусе различается около 70 типов синтаксических отношений[13].
Используемые синтаксические отношения[17]
| Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
|---|---|---|---|
| Предикативное | предик | Сказуемое | Подлежащее |
| Дательно-субъектное | дат-субъект | Слово, обозначающее состояние | субъект состояния, обозначаемого словом-хозяином |
| Агентивное | агент | Слово, обозначающее действие | Субъект действия, обозначаемого словом-хозяином |
| Квазиагентивное | квазиагент | Предикатное существительное | Слово, реализующее первую синтаксическую валентность слова-хозяина |
| Несобственно-агентивное | несобст-агент | Глагол | Слово, реализующее первую семантическую валентность существительного, являющегося семантическим актантом слова-хозяина |
| Первое комплетивное | 1-компл | Предикатное слово | Синтаксический актант слова-хозяина, за исключением первого. Так, первое комплетивное отношение относится ко второму актанту, второе — к третьему и т. д. |
| Второе комплетивное | 2-компл | ||
| Третье комплетивное | 3-компл | ||
| Четвертое комплетивное | 4-компл | ||
| Пятое комплетивное | 5-компл | ||
| Присвязочное | присвяз | Глагол-связка | Именная часть сказуемого |
| Первое несобственно-комплетивное | 1-несобст-компл | Функциональный глагол | Дополнение (первое, второе и т. д.), семантическим хозяином которого является некоторый семантический актант слова-хозяина |
| Второе несобственно-комплетивное | 2-несобст-компл | ||
| Третье несобственно-комплетивное | 3-несобст-компл | ||
| Четвертое несобственно-комплетивное | 4-несобст-компл | ||
| Пятое несобственно-комплетивное | 5-несобст-компл | ||
| Неактантно-комплетивное | неакт-компл | Предикатное слово | Слово, не являющееся полноценным семантическим актантом слова-хозяина, но по синтаксической функции близкое к дополнению |
| Комплетивно-аппозитивное | компл-аппоз | Параметрическое существительное или существительное типа рейс, маршрут, поезд | Семантический актант слова-хозяина, если этот актант выражается именительным падежом или его синтаксическим эквивалентом |
| Предложное | предл | Предлог | Вершина именной группы, зависящая от предлога |
| Подчинительно-союзное | подч-союзн | Подчинительный союз | Вершина придаточного предложения, вводимого починительным союзом |
| Инфинитивно-союзное | инф-союзн | Подчинительный союз | Инфинитив |
| Сравнительное | сравнит | Прилагательное или наречие в сравнительной степени | Вершина именной группы в родительном падеже, представляющая второй из сравниваемых членов, либо сравнительный союз чем |
| Глагол, имя или наречие | Сравнительный союз | ||
| Сравнительно-союзное | сравн-союзн | Сравнительный союз | Второй из сравниваемых членов сравнительной конструкции |
| Элективное | электив | Числительное, порядковое прилагательное, прилагательное в превосходной степени или прилагательное со словом самый | Предлог из или среди, вводящий указание на множество, в котором производится выбор |
| Сентенциально-предикативное | сент-предик | Вершина предложения, выражающего ситуацию, описываемую в идентифицирующей конструкции | Указательное местоименное существительное это или то в именительном падеже |
| Адресатно-присвязочное | адр-присв | Слово-отношение, выступающее в качестве именной части сказуемого при (возможно, нулевой) связке | Существительное в дательном падеже, заполняющее, по существу, синтаксическую валентность слова-хозяина |
| Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
|---|---|---|---|
| Определительные | |||
| Определительное | опред | Существительное или Прилагательное | Прилагательное или причастие |
| Описательно-определительное | оп-опред | Существительное или прилагательное | Прилагательное или причастие, выступающее в качестве обособленного определения |
| Аппроксимативно-порядковое | аппрокс-порядк | Существительное | Порядковое прилагательное |
| Релятивное | релят | Существительное или прилагательное | Вершина придаточного определительного |
| Общеатрибутивные | |||
| Атрибутивное | атриб | Существительное или прилагательное | Несогласованное определение |
| Композитное | композ | Вторая часть сложного слова | Первая часть сложного слова |
| Аппозитивные | |||
| Аппозитивное | аппоз | Существительное | Следующее за ним приложение |
| Обособленно-аппозитивное | об-аппоз | Существительное | Обособленное приложение к слову-хозяину |
| Номинативно-аппозитивное | ном-аппоз | Существительное | Вершина любой группы в кавычках, выражающей название |
| Нумеративно-аппозитивное | нум-аппоз | Существительное, обозначающее регулярно нумерующиеся объекты | Имя числительное в именительном падеже либо записанное цифрами (обозначающее номер) |
| Количественные | |||
| Количественное | количест | Существительное | Числительное, стоящее в препозиции |
| Аппроксимативно-количественное | аппрокс-колич | Существительное | Числительное, стоящее в постпозиции |
| Количественное-копредикативное | колич-копред | Глагол, при котором стоит существительное в родительном падеже, выступающее при нём в качестве подлежащего | Вершина группы числительного или вершина именной группы с количественным значением |
| Количественно-ограничительное | колич-огран | Прилагательное или наречие в сравнительной степени | Наречие или вершина группы с предлогами в или на, указывающая на интенсивность |
| Распределительное | распред | Вершина именной группы, обозначающая некий параметр (цену, скорость, вес и т. п.) | Существительное в именительном падеже или вершина группы с предлогами в, на, за, указывающая на единицу измерения |
| Аддитивное | аддит | Числительное или вершина количественной группы | Числительное или вершина количественной группы |
| Обстоятельственные | |||
| Обстоятельственное | обст | Глагол или слово другой части речи, являющееся вершиной предложения | Обстоятельство |
| Длительное | длительн | Глагол | Обстоятельство длительности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности |
| Кратно-длительное | кратно-длительн | Глагол | Обстоятельство многократной длительности, выражаемое существительным в творительном падеже множественного числа |
| Дистанционное | дистанц | Глагол | Обстоятельство пространственной протяженности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности |
| Обстоятельственно-тавтологическое | обст-тавт | Глагол | Существительное в творительном падеже, дублирующее часть значения слова-хозяина |
| Субъектно-обстоятельственное | суб-обст | Глагол | Обстоятельство в творительном падеже, характеризующее одновременно субъект действия |
| Объектно-обстоятельственное | об-обст | Глагол | Обстоятельство в творительном падеже, характеризующее одновременно объект действия |
| Субъектно-копредикативное | суб-копр | Глагол | Вершина именной группы в именительном или творительном падеже, либо вершина предложной группы, выступающая в функции, близкой к функции именной части составного сказуемого, но по смыслу характеризующая подлежащее и (в случае именной группы) согласующаяся с ним по роду и числу |
| Объектно-копредикативное | об-копр | Глагол | Вершина именной группы в творительном или винительном падеже или вершина предложной группы, характеризующая дополнение. Если слово-слуга выражено именной группой, то оно согласуется с дополнением по роду и числу |
| Ограничительное | огранич | Слово любой части речи | Частица или ограничительное наречие |
| Вводное | вводн | Сказуемое или другой член предложения | Вводное слово, вводный оборот, предложение или обращение |
| Изъяснительное | изъясн | Вершина главного предложения | Вершина придаточного предложения, включающего союзное слово что, отчего или почему |
| Разъяснительное | разъяснит | Произвольное слово | Слово, которое имеет зависимые и вместе с ними сообщает дополнительную информацию о слове-хозяине или группе слов, представленных словом-хозяином. Необходимо присутствие формального «маркера разъяснения», которым может быть знак препинания или выражение, вводящее дополнительную информацию |
| Примыкательное | примыкат | Слово, являющееся «хозяином» выражения, вершиной которого является слово-слуга | Вершина выражения, зависящего от слова-хозяина, расположенного справа от слова-хозяина и заключенного в скобки или ограниченного с обеих сторон тире |
| Уточнительное | уточн | Представитель (вершина) некоторого выражения | Представитель некоторого выражения. Это выражение семантически уточняет выражение, представителем которого являтся слово-хозяин, однако оба этих выражения имеют одинаковую синтаксическую функцию. |
| Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
|---|---|---|---|
| Сочинительное | сочин | Член сочинительной конструкции | Член сочинительной конструкции или сочинительный союз. Расположен непосредственно справа от слова-хозяина. |
| Сентенциально-сочинительное | сент-соч | Вершина первого из однородных предложений | Вершина второго предложения или сочинительный союз |
| Сочинительно-союзное | соч-союзн | Сочинительный союз | Вершина второго из однородных членов или предложений |
| Кратное | кратн | Главный член кратной конструкции — существительное, прилагательное, наречие, числительное или глагол | Зависимый член кратной конструкции. Оформлен либо так же, как и главный член, и отделен от него дефисом, тире, двоеточием или наклонной чертой, либо вводится предлогом «на» или «к» |
| Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
|---|---|---|---|
| Аналитическое | аналит | Элементы составного глагольного сказуемого. Эти элементы оформляют сложное будущее время или сослагательное наклонение | |
| Пассивно-аналитическое | пасс-анал | Глагол-связка «быть» | Страдательное причастие |
| Количественно-вспомогательное | колич-вспом | Правая часть составного числительного или составного порядкового прилагательного | Левая часть составного числительного или составного порядкового прилагательного |
| Соотносительное | соотнос | Левая часть разрывного парного союза, предлога или частицы, или правая часть разрывного парного сочинительного союза | Правая часть разрывного парного союза, предлога или частицы, или левая часть разрывного парного сочинительного союза |
| Эксплетивное | эксплет | Указательное местоимение-«прокладка» типа то, тот | Подчинительный союз или вершина предложения. Слово-хозяин «расшифровывается» словом-слугой |
| Пролептическое | пролепт | Семантически неполнозначное слово, занимающее полноценную позицию в предложении | Слово, вынесенное вовне |
| Вспомогательное | вспом | Части образующих синтаксическое и смысловое единство словосочетаний | |
Для записи информации о синтаксической структуре предложения в СинТагРусе используются два атрибута каждого слова предложения: DOM, значением которого является ID слова-хозяина, и LINK, значением которого является имя соответствующего синтаксического отношения[16]. Вершина предложения имеет специальное значение _root атрибута DOM[19].
Каждой словоформе, помимо леммы, приписывается атрибут KSNAME, значением которого является имя соответствующей статьи толково-комбинаторного словаря лингвистического процессора ЭТАП. За счёт этого, с одной стороны, уточняется значение многозначных и омонимичных слов, а с другой стороны, устанавливается связь со статьями словаря, который используется процессором ЭТАП, и становится доступной содержащаяся в этих статьях информация о семантических свойствах слов[10].
В предложениях отмечаются словосочетания, которые можно интерпретировать в терминах лексических функций. Для разметки таких словосочетаний внутри предложения создаются дополнительные элементы отдельно от самих словоформ[13].
Под микросинтаксическими единицами в СинТагРусе понимаются фразеологизмы с синтаксической спецификой[20]. В качестве примера можно привести составной предлог в силу. С одной стороны, он синтаксически близок к первообразным предлогам. Действительно, между элементами этого предлога нельзя вставить местоименное определение к существительному, как в других предложных конструкциях типа в виде, в случае и др. Кроме того, если этому предлогу в предложении подчиняется личное местоимение третьего лица, то к такому местоимению в большинстве случаев добавляется начальное н-, как и в случае первообразных предлогов. С другой стороны, первая часть некоторых парных союзов, а также частица ли или же, может располагаться между предлогом в силу и зависящим от него существительным, что не дает возможности отнести этот предлог к первообразным[21].
Если в некотором предложении корпуса встречается микросинтаксическая единица, то добавляется новый атрибут предложения — MICROSYNT, значением которого являются имя соответствующей микросинтаксической единицы и её линейные границы[20].
Для встреченного в тексте анафорического местоимения указывается его антецедент, то есть выражение, к которому это местоимение отсылает. У предложения, в котором найдено анафорическое местоимение, имеется дополнительный атрибут COREF, значением которого является список пар местоимение — антецедент, соответствующий данному местоимению. Для каждого анафорического местоимения указывается его линейное положение в предложении, а для антецедента, помимо этого, дополнительно указывается, в каком предложении относительно рассматриваемого он находится (в пределах трёх предложений в обе стороны)[4].
В СинТагРусе опущенные фрагменты эллиптированных предложений восстанавливаются явно. Соответствующая восстановленная словоформа размечается точно так же, как и другие словоформы; в частности, от таких «фантомных» слов проводятся все необходимые синтаксические связи. При этом словоформе приписывается атрибут NODETYPE со значением FANTOM[2][22].
Использование корпуса
СинТагРус используется в различных областях. С одной стороны, на его основе проводятся чисто лингвистические исследования, как теоретические, так и практические (в частности, в области лексикографии). С другой стороны, корпус находит своё применение в задачах компьютерной лингвистики и обработки естественного языка как источник лингвистических данных, например, при создании синтаксических анализаторов. Эти задачи могут решаться с применением различных форматов разметки. В то же время объединение нескольких корпусов с разной разметкой в один делает последний более представительным. Эти обстоятельства приводят к задаче конвертации корпуса[4].
Предпринимались неоднократные попытки перевода СинТагРуса в другие форматы разметки: известны эксперименты по переводу корпуса в форматы HPSG и PDT[13]. Кроме того, СинТагРус был успешно переведён в форматы CoNLL-U[22], PTB[23] и SD[24]. Однако преобразование, во-первых, во всех случаях касалось только морфологической и синтаксической разметок, а во-вторых, осуществлялось в автоматическом режиме, что стало препятствием на пути к полноценной конвертации. Так, например, часть речи NID не удалось однозначно перевести в формат CoNLL-U (в котором такой части речи нет) автоматически, поэтому все предложения СинТагРуса, в которых хотя бы одна словоформа имела такую часть речи, были исключены из корпуса перед конвертацией[22].
Доступ
СинТагРус бесплатно распространяется по некоммерческой лицензии[25]. Кроме того, версия корпуса без некоторых типов разметки доступна для некоммерческого использования в научно-исследовательских и учебных целях как подкорпус Национального корпуса русского языка и находится в открытом доступе[13], так же как и версии в форматах CoNLL-U (лицензия CC BY-NC-SA 4.0)[22] и PTB (доступен только конвертер)[23].
