Теория риторических структур

Теория риторических структур (англ. Rhetorical Structure Theory, ТРС) — лингвистическая теория, впервые сформулированная Уильямом Манном и Сандрой Томпсон из Института информационных наук (ISI) Университета Южной Калифорнии в 1988 году[1][2]. ТРС была изначально создана как часть исследований в области компьютерного генерирования текста; впоследствии активно применялась в задачах автоматического реферирования текстов и других направлениях анализа и создания текстов на естественных языках. Теория описывает содержательную структуру текста посредством отношений, которые устанавливаются между его частями[3]. ТРС объясняет явление когерентности, выявляя иерархическую, взаимосвязанную структуру текста[3]. В 2000 году Даниэль Марку из ISI показал, что ТРС может использоваться для парсинга дискурса и автоматического обобщения текста[4][5][6][7][8][9].

Риторические отношения

Риторические отношения (отношения когерентности, дискурсивные отношения) — это паратактические (координатные) или гипотактические (подчинённые) связи между двумя или более интервалами текста[10][11]. Считается, что когерентность находит воплощение именно в этих отношениях[12]. ТРС с помощью риторических отношений предоставляет систематическую схему анализа текста. Практически анализ обычно осуществляется путём подробного чтения текста и построения дерева, отображающего связи между блоками с помощью риторических отношений.

Пример (заголовок и резюме из статьи в журнале Scientific American; Ramachandran and Anstis, 1986; исходные текстовые блоки с нумерацией):

  1. [Заголовок:] Восприятие видимого движения.
  2. [Резюме:] Когда движение объекта, видимого с перерывами, неоднозначное
  3. Зрительная система преодолевает эту неоднозначность
  4. Применяя некоторые приёмы, отражающие встроенные в неё знания о мире
Диаграмма ТРС-анализа

На иллюстрации номера 1, 2, 3, 4 обозначают текстовые блоки. Четвёртый и третий блоки формируют отношение «Средство», при этом четвёртый блок является ядром, а третий — спутником. Аналогично, второй блок по отношению к третьему и четвёртому формирует отношение «Состояние». Все части являются интервалами, причём интервалы могут содержать более одной текстовой единицы.

Ядерность в дискурсе

ТРС выделяет два типа единиц: ядра и спутники. Ядро считается наиболее важной частью текста, тогда как спутник дополняет ядро и имеет второстепенное значение. Ядро несёт основное содержание, спутник — дополнительную информацию о ядре. Спутник обычно не может быть полностью понят без ядра, тогда как текст без спутников остаётся частично осмысленным.

Иерархия в анализе

Риторические отношения ТРС применяются рекурсивно ко всему тексту, пока все текстовые единицы не окажутся связанными в рамках каких-либо отношений ТРС. Как правило, результатом выступает иерархическая структура — дерево, в котором верхнеуровневое отношение охватывает остальные отношения более низких уровней.

Почему ТРС?

С точки зрения лингвистики, ТРС предлагает иной способ организации текста по сравнению с большинством лингвистических направлений. Особенность ТРС — акцент на связь между отношениями, объединяющими части текста, и когерентностью всего текста. С вычислительной позиции ТРС обеспечивает формальное представление таких отношений и нашла практическое применение в разработке систем генерации текстов[13] и автоматического реферирования[14][3].

Проектирование решений

Компьютерные специалисты Ана Кристина Бичарра Гарсиа и Кларисс Зиккениус де Соуз применили ТРС как основу системы проектирования решений под названием ADD+[15][16]. В системе ADD+ ТРС служит инструментом риторической организации базы знаний, при этом обеспечивается совместимость с другими моделями представления знаний, например, с проблемно-ориентированными информационными системами (IBIS)[16]. ТРС также используется для моделирования структур аргументации[17][18][19].

Примечания