Теория риторических структур
Теория риторических структур (англ. Rhetorical Structure Theory, ТРС) — лингвистическая теория, впервые сформулированная Уильямом Манном и Сандрой Томпсон из Института информационных наук (ISI) Университета Южной Калифорнии в 1988 году[1][2]. ТРС была изначально создана как часть исследований в области компьютерного генерирования текста; впоследствии активно применялась в задачах автоматического реферирования текстов и других направлениях анализа и создания текстов на естественных языках. Теория описывает содержательную структуру текста посредством отношений, которые устанавливаются между его частями[3]. ТРС объясняет явление когерентности, выявляя иерархическую, взаимосвязанную структуру текста[3]. В 2000 году Даниэль Марку из ISI показал, что ТРС может использоваться для парсинга дискурса и автоматического обобщения текста[4][5][6][7][8][9].
Риторические отношения
Риторические отношения (отношения когерентности, дискурсивные отношения) — это паратактические (координатные) или гипотактические (подчинённые) связи между двумя или более интервалами текста[10][11]. Считается, что когерентность находит воплощение именно в этих отношениях[12]. ТРС с помощью риторических отношений предоставляет систематическую схему анализа текста. Практически анализ обычно осуществляется путём подробного чтения текста и построения дерева, отображающего связи между блоками с помощью риторических отношений.
Пример (заголовок и резюме из статьи в журнале Scientific American; Ramachandran and Anstis, 1986; исходные текстовые блоки с нумерацией):
- [Заголовок:] Восприятие видимого движения.
- [Резюме:] Когда движение объекта, видимого с перерывами, неоднозначное
- Зрительная система преодолевает эту неоднозначность
- Применяя некоторые приёмы, отражающие встроенные в неё знания о мире
На иллюстрации номера 1, 2, 3, 4 обозначают текстовые блоки. Четвёртый и третий блоки формируют отношение «Средство», при этом четвёртый блок является ядром, а третий — спутником. Аналогично, второй блок по отношению к третьему и четвёртому формирует отношение «Состояние». Все части являются интервалами, причём интервалы могут содержать более одной текстовой единицы.
Ядерность в дискурсе
ТРС выделяет два типа единиц: ядра и спутники. Ядро считается наиболее важной частью текста, тогда как спутник дополняет ядро и имеет второстепенное значение. Ядро несёт основное содержание, спутник — дополнительную информацию о ядре. Спутник обычно не может быть полностью понят без ядра, тогда как текст без спутников остаётся частично осмысленным.
Иерархия в анализе
Риторические отношения ТРС применяются рекурсивно ко всему тексту, пока все текстовые единицы не окажутся связанными в рамках каких-либо отношений ТРС. Как правило, результатом выступает иерархическая структура — дерево, в котором верхнеуровневое отношение охватывает остальные отношения более низких уровней.
Почему ТРС?
С точки зрения лингвистики, ТРС предлагает иной способ организации текста по сравнению с большинством лингвистических направлений. Особенность ТРС — акцент на связь между отношениями, объединяющими части текста, и когерентностью всего текста. С вычислительной позиции ТРС обеспечивает формальное представление таких отношений и нашла практическое применение в разработке систем генерации текстов[13] и автоматического реферирования[14][3].
Проектирование решений
Компьютерные специалисты Ана Кристина Бичарра Гарсиа и Кларисс Зиккениус де Соуз применили ТРС как основу системы проектирования решений под названием ADD+[15][16]. В системе ADD+ ТРС служит инструментом риторической организации базы знаний, при этом обеспечивается совместимость с другими моделями представления знаний, например, с проблемно-ориентированными информационными системами (IBIS)[16]. ТРС также используется для моделирования структур аргументации[17][18][19].