Извлечение аргументов

Извлечение аргументов, также называемое извлечением аргументации, — область исследований в рамках обработки естественного языка. Эта дисциплина тесно связана с машинным обучением и теорией аргументации^[1]^[2]. Целью извлечения аргументов является автоматическое выделение и идентификация аргументативных структур в текстах на естественном языке с помощью компьютерных программ^[3]. Эти аргументативные структуры включают посылки, выводы, схемы аргументации, а также отношения между основным и вторичным аргументом или между основным аргументом и контраргументом внутри дискурса^[4].

С появлением больших языковых моделей (LLM) в извлечении аргументов произошёл сдвиг парадигмы: осуществился переход к подходам, ориентированным на промпты (prompt-driven), что привело к размытию границ между классическими подзадачами^[5].

Серия воркшопов «Argument Mining» является ведущим исследовательским форумом по темам, связанным с извлечением аргументов. В частности, 12-й семинар ArgMining 2025, прошедший в Вене в рамках конференции ACL 2025, был посвящён новейшим исследованиям и включал такие ключевые задачи, как генерация критических вопросов (CQs-Gen) и мультимодальное обнаружение аргументативных уловок в политических дебатах (MM-ArgFallacy2025)^[6]^[7].

Таксономия задач в области извлечения аргументов включает классические и современные подходы. Традиционно применяется последовательный конвейерный подход (pipeline), в рамках которого каждая подзадача решается специализированной моделью. Основные этапы классического конвейера включают идентификацию компонентов аргумента, их классификацию по роли (например, утверждение или посылка) и предсказание логических связей между ними (поддержка или атака). Современный подход предполагает использование сквозных (End-to-End) моделей на базе больших языковых моделей (LLM), которые способны решать все подзадачи одновременно, генерируя полную аргументативную структуру из необработанного текста^[8].^[9]

Для повышения эффективности LLM в извлечении аргументов применяются методы рассуждений по цепочке (Chain-of-Thought, CoT) и генерации с дополненной выборкой (Retrieval-Augmented Generation, RAG). Метод CoT позволяет декомпозировать сложные задачи на последовательные этапы рассуждений, делая процесс вывода более прозрачным и снижая количество ошибок. Технология RAG используется для обогащения контекста модели актуальными внешними данными, что помогает точнее идентифицировать компоненты аргументов и их связи^[5].^[10]

К новым и активно развивающимся подзадачам относятся выявление логических ошибок (fallacy detection), анализ схем аргументации и оценка качества аргументов. При оценке качества учитывается фактор субъективности восприятия, для чего применяются подходы, моделирующие различные точки зрения и типы оценщиков^[7].^[11]^[12]

Отдельным направлением является мультимодальное извлечение аргументов (Multimodal Argument Mining, MAM) из устной речи. Этот подход расширяет традиционный текстовый анализ за счёт использования акустических и просодических признаков, таких как интонация, громкость, темп речи и паузы, которые несут важную информацию для понимания структуры аргументации^[13].^[14]

Извлечение аргументов применяется к различным жанрам, включая качественную оценку содержания в социальных медиа, где оно служит мощным инструментом для политиков и исследователей в области социальных и политических наук^[3], а также используется для автоматического фактчекинга и борьбы с дезинформацией^[5]. Другие области применения включают юридические документы (с использованием LLM для анализа судебных решений и автоматического реферирования^[5]^[15]), обзоры товаров, научные статьи (где применяется извлечение доказательств и междокументный анализ^[5]^[16]), онлайн-дискуссии, газетные статьи и диалоговые домены. Для объединения различных областей в одну доменно-независимую модель аргументации с успехом применяются методы переносимого обучения.

Извлечение аргументов используется также для индивидуальной поддержки студентов в процессах написания текстов, обеспечивая доступ и визуализацию дискурса аргументации в их работах. Применение извлечения аргументов в обучающих системах, ориентированных на пользователя, позволило существенно улучшить навыки аргументации по сравнению с традиционными методами обучения аргументации; современные системы используют малые открытые LLM для анализа ученических эссе и предоставления обратной связи^[17].

Из-за большого разнообразия текстовых жанров и различных исследовательских подходов остаётся сложной задачей выработка общего и объективного оценочного подхода^[18]. Было предложено множество размеченных наборов данных, некоторые из которых получили популярность, однако общепринятого консенсусного набора пока не существует. Разметка аргументативных структур — трудоёмкая задача. Предпринимались успешные попытки делегировать эти задачи широкой публике (краудсорсинг), однако этот процесс требует значительных усилий и ресурсов. Одними из первых способов решения этой проблемы стало применение методов слабого контроля^[19]. Впоследствии стандартом для создания размеченных наборов данных стал гибридный подход, сочетающий предварительную разметку с помощью больших языковых моделей (LLM) и последующую верификацию человеком, что значительно снижает затраты^[20].

Существуют специфические технические барьеры при использовании больших языковых моделей в задачах извлечения аргументов. LLM сталкиваются с проблемами при обработке длинного контекста^[21] и распознавании неявных компонентов аргументации (энтимем)^[22]. Кроме того, сохраняется высокий риск галлюцинаций и генерации ложных логических связей, при которых модель может ошибочно классифицировать отношения между аргументами или искажать факты^[23]^[24].

Использование больших языковых моделей (LLM) в извлечении аргументов сопряжено с рядом этических рисков. Одной из ключевых проблем является систематическая предвзятость моделей: обучаясь на обширных массивах данных, они могут наследовать и усиливать существующие социальные стереотипы, что приводит к искажённой или дискриминационной оценке аргументации^[5]^[25]. Другая значимая угроза заключается в риске использования этих технологий для генерации дезинформации и манипуляции общественным мнением. Системы автоматического анализа могут применяться для создания убедительных пропагандистских материалов или легитимизации сфабрикованного контента путём придания ему логически выстроенной структуры^[26]. Кроме того, остро стоит проблема непрозрачности (эффект «чёрного ящика») и подотчётности систем автоматизированного рассуждения. Сложность архитектуры LLM затрудняет понимание логики их решений, что усложняет выявление ошибок и делает проблематичным определение ответственности за вред, причинённый некорректными выводами модели^[5]^[26].

↑ Argument Mining (неопр.). Springer. Дата обращения: 28 мая 2026.
↑ Argument Mining and Computational Linguistics (неопр.). CEUR Workshop Proceedings. Дата обращения: 28 мая 2026.
↑ ¹ ² Lippi, Marco; Torroni, Paolo (20 апреля 2016). “Argumentation Mining: State of the Art and Emerging Trends”. ACM Transactions on Internet Technology [англ.]. 16 (2): 10. DOI:10.1145/2850417. ISSN 1533-5399. Дата обращения 2026-05-28.
↑ Gurevych, Iryna; Reed, Chris; Slonim, Noam; Stein, Benno NLP Approaches to Computational Argumentation – ACL 2016 Tutorial (англ.). acl2016tutorial.arg.tech. Дата обращения: 28 мая 2026.
↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ LLM Transformation in Argument Mining (неопр.). arXiv. Дата обращения: 28 мая 2026.
↑ 12th Workshop on Argument Mining (ACL 2025) (неопр.). ACLWeb. Дата обращения: 28 мая 2026.
↑ ¹ ² ArgMining 2025 Events (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.
↑ Text-to-Text Generation for Argument Mining (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.
↑ Argument Mining Approaches (неопр.). CEUR Workshop Proceedings. Дата обращения: 28 мая 2026.
↑ ArgRAG: Retrieval-Augmented Generation for Quantitative Bipolar Argumentation Frameworks (неопр.). arXiv. Дата обращения: 28 мая 2026.
↑ Argumentation Scheme Mining with LLM (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.
↑ Towards a Perspectivist Turn in Argument Quality Assessment (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.
↑ Multimodal Argument Mining with Paralinguistic Signals (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.
↑ MM-ArgFallacy2025 Shared Task Overview (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.
↑ Legal Argument Mining for Court Decisions Analysis using LLMs (неопр.). ACL Anthology (2025). Дата обращения: 28 мая 2026.
↑ Inter-document Argumentative Relations (неопр.). Dagstuhl Publishing. Дата обращения: 28 мая 2026.
↑ Using Small Open LLMs for Argumentative Essay Analysis (неопр.). arXiv (2025). Дата обращения: 28 мая 2026.
↑ Unshared Task – 3rd Workshop on Argument Mining (англ.). argmining2016.arg.tech. Дата обращения: 28 мая 2026. Архивировано 12 февраля 2025 года.
↑ Levy, Ran; Gretz, Shai; Sznajder, Benjamin; Hummel, Shay; Aharonov, Ranit; Slonim, Noam (2017). “Unsupervised corpus-wide claim detection”. Proceedings of the 4th Workshop on Argumentation Mining 2017 [англ.]. Дата обращения 2026-05-28.
↑ Human vs LLM Annotation 2025 (неопр.). Future AGI Blog. Дата обращения: 28 мая 2026.
↑ Long-Context Reasoning Challenges (неопр.). arXiv. Дата обращения: 28 мая 2026.
↑ Implicit Premises in Argumentation (неопр.). arXiv. Дата обращения: 28 мая 2026.
↑ Галлюцинации в LLM (неопр.). Ultralytics. Дата обращения: 28 мая 2026.
↑ Struggles with Verifiable Reasoning (неопр.). arXiv. Дата обращения: 28 мая 2026.
↑ Social Bias in Computational Argumentation (неопр.). ACL Anthology (2020). Дата обращения: 28 мая 2026.
↑ ¹ ² Ethical Risks of AI in Media (неопр.). WJARR (2022). Дата обращения: 28 мая 2026.

[ArgumentMiningBook-1] Argument Mining (неопр.). Springer. Дата обращения: 28 мая 2026.

[Frommholz2021-2] Argument Mining and Computational Linguistics (неопр.). CEUR Workshop Proceedings. Дата обращения: 28 мая 2026.

[lippi2016-3] ¹ ² Lippi, Marco; Torroni, Paolo (20 апреля 2016). “Argumentation Mining: State of the Art and Emerging Trends”. ACM Transactions on Internet Technology [англ.]. 16 (2): 10. DOI:10.1145/2850417. ISSN 1533-5399. Дата обращения 2026-05-28.

[ACL_tutorial-4] Gurevych, Iryna; Reed, Chris; Slonim, Noam; Stein, Benno NLP Approaches to Computational Argumentation – ACL 2016 Tutorial (англ.). acl2016tutorial.arg.tech. Дата обращения: 28 мая 2026.

[LLMShift2025-5] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ LLM Transformation in Argument Mining (неопр.). arXiv. Дата обращения: 28 мая 2026.

[ArgMining2025ACL-6] 12th Workshop on Argument Mining (ACL 2025) (неопр.). ACLWeb. Дата обращения: 28 мая 2026.

[ArgMining2025Tasks-7] ¹ ² ArgMining 2025 Events (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.

[PipelineEndToEnd2024-8] Text-to-Text Generation for Argument Mining (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.

[MTLFramework-9] Argument Mining Approaches (неопр.). CEUR Workshop Proceedings. Дата обращения: 28 мая 2026.

[ArgRAG2025-10] ArgRAG: Retrieval-Augmented Generation for Quantitative Bipolar Argumentation Frameworks (неопр.). arXiv. Дата обращения: 28 мая 2026.

[SchemeMining2025-11] Argumentation Scheme Mining with LLM (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.

[SubjectiveQuality2025-12] Towards a Perspectivist Turn in Argument Quality Assessment (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.

[MAMFeatures2024-13] Multimodal Argument Mining with Paralinguistic Signals (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.

[MAMFallacy2025-14] MM-ArgFallacy2025 Shared Task Overview (неопр.). ACL Anthology. Дата обращения: 28 мая 2026.

[LegalLLM2025-15] Legal Argument Mining for Court Decisions Analysis using LLMs (неопр.). ACL Anthology (2025). Дата обращения: 28 мая 2026.

[InterDoc2025-16] Inter-document Argumentative Relations (неопр.). Dagstuhl Publishing. Дата обращения: 28 мая 2026.

[SmallLLMEdu2025-17] Using Small Open LLMs for Argumentative Essay Analysis (неопр.). arXiv (2025). Дата обращения: 28 мая 2026.

[unshared_task-18] Unshared Task – 3rd Workshop on Argument Mining (англ.). argmining2016.arg.tech. Дата обращения: 28 мая 2026. Архивировано 12 февраля 2025 года.

[levy2017-19] Levy, Ran; Gretz, Shai; Sznajder, Benjamin; Hummel, Shay; Aharonov, Ranit; Slonim, Noam (2017). “Unsupervised corpus-wide claim detection”. Proceedings of the 4th Workshop on Argumentation Mining 2017 [англ.]. Дата обращения 2026-05-28.

[LLMHybridAnnotation2025-20] Human vs LLM Annotation 2025 (неопр.). Future AGI Blog. Дата обращения: 28 мая 2026.

[LongContext2025-21] Long-Context Reasoning Challenges (неопр.). arXiv. Дата обращения: 28 мая 2026.

[ImplicitPremises2026-22] Implicit Premises in Argumentation (неопр.). arXiv. Дата обращения: 28 мая 2026.

[LLMHallucinationGlossary-23] Галлюцинации в LLM (неопр.). Ultralytics. Дата обращения: 28 мая 2026.

[FalseReasoning2026-24] Struggles with Verifiable Reasoning (неопр.). arXiv. Дата обращения: 28 мая 2026.

[BiasArgMining2020-25] Social Bias in Computational Argumentation (неопр.). ACL Anthology (2020). Дата обращения: 28 мая 2026.

[DisinfoRisk2022-26] ¹ ² Ethical Risks of AI in Media (неопр.). WJARR (2022). Дата обращения: 28 мая 2026.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

Извлечение аргументов

Методы и подзадачи

Применения

Задачи и трудности

Этические аспекты

Примечания

Категории