Обработка естественного языка
Обработка текстов на естественном языке (Natural Language Processing, NLP) — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста.
Задачи и ограничения
Теоретически, построение естественно-языкового интерфейса для компьютеров — очень привлекательная цель. Ранние системы, такие как SHRDLU, работая с ограниченным «миром кубиков» и используя ограниченный словарный запас, выглядели чрезвычайно хорошо, вдохновляя этим своих создателей. Однако оптимизм быстро иссяк, когда эти системы столкнулись со сложностью и неоднозначностью реального мира.
Понимание естественного языка иногда считают[кто?] AI-полной задачей, потому как распознавание живого языка требует огромных знаний системы об окружающем мире и возможности с ним взаимодействовать. Само определение смысла слова «понимать» — одна из главных задач искусственного интеллекта [источник не указан 1294 дня].
Сложности понимания
В русском языке
Качество понимания зависит от множества факторов: от языка, от национальной культуры, от самого собеседника и т. д. Вот некоторые примеры сложностей, с которыми сталкиваются системы понимания текстов.
- Сложности с раскрытием анафор (распознаванием, что имеется в виду при использовании местоимений): предложения «Мы отдали бананы обезьянам, потому что они были голодные» и «Мы отдали бананы обезьянам, потому что они были перезрелые» похожи по синтаксической структуре. В одном из них местоимение они относится к обезьянам, а в другом — к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны.
- Свободный порядок слов может привести к совершенно иному толкованию фразы: «Бытие определяет сознание» — что определяет что?
- В русском языке свободный порядок компенсируется развитой морфологией, служебными словами и знаками препинания, но в большинстве случаев для компьютера это представляет дополнительную проблему.
- В речи могут встретиться неологизмы, например, глагол «Пятидесятирублируй» — то есть высылай 50 рублей. Система должна уметь отличать такие случаи от опечаток и правильно их понимать.
- Правильное понимание омонимов — ещё одна проблема. При распознавании речи, помимо прочих, возникает проблема фонетических омонимов. Во фразе «Серый волк в глухом лесу встретил рыжую лису» выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (кроме того, что лиса может быть рыжей, а лес — глухим, лес также может быть рыжим (характеристика, в данном случае обозначающая преобладающий цвет листвы в лесу), в то время как лиса может быть глухой, что порождает дополнительную проблему, вытекающую из предыдущей, хотя и отчасти компенсируется морфологией — у прилагательных в данном предложении род явно разный).
Классификация задач
Список примеров в этой статье не основывается на авторитетных источниках, посвящённых непосредственно предмету статьи. |
Задачи анализа и синтеза в комплексе:
- Машинный перевод
- Автоматическое реферирование, аннотирование или упрощение текста
Общая классификация:
- Категоризация текстов
- Классификация последовательностей символов
- Распознавание именованных сущностей
- Определение частей речи слов
- Распознавание фраз
- Извлечение информации из текста
- Синтаксическая аннотация
- Семантическая аннотация
- Генерирование текста
- Генерация текста на основе распознанной речи
- Машинный перевод
- Обобщение текста
Программное обеспечение
- AlchemyAPI
- Expert System S.p.A.
- General Architecture for Text Engineering (GATE)
- Spark NLP
- Modular Audio Recognition Framework
- MontyLingua
- Natural Language Toolkit (NLTK)
См. также
- Anyword
- Inbenta
- Moveworks
- Математическая лингвистика
- Информационный поиск
- Виртуальный собеседник
- Робот (программа)
- Извлечение аргументов
Примечания
- ↑ Shervin Minaee, Nal Kalchbrenner, Erik Cambria, Narjes Nikzad, Meysam Chenaghlu. Deep Learning Based Text Classification: A Comprehensive Review // arXiv:2004.03705 [cs, stat]. — 2020-04-05. Архивировано 24 июня 2020 года.
- ↑ Tom Young, Devamanyu Hazarika, Soujanya Poria, Erik Cambria. Recent Trends in Deep Learning Based Natural Language Processing // arXiv:1708.02709 [cs]. — 2018-11-24. Архивировано 6 мая 2020 года.
- ↑ Prof. Jason Eisner. Курс по автоматической обработке текста (англ.). Дата обращения: 7 мая 2020. Архивировано 13 мая 2020 года.
Литература
- Автоматическая обработка текстов на естественном языке и анализ данных / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова [и др.]. — Москва : НИУ ВШЭ, 2017. — 269 с.
- Бабаян, Б. А. Языковая модель системной поддержки модульного программирования / Б. А. Бабаян, В. М. Пентковский. — Москва : ИТМ и ВТ АН СССР, 1985. — 58 с. : ил.; 21 см. — (Препринт / Ордена Трудового Красного знамени институт точной механики и вычислительной техники им. С. А. Лебедева АН СССР).
- Ганегедара, Т. Обработка естественного языка с TensorFlow : научите компьютер разговаривать, используя библиотеки глубокого обучения на языке Python / Тушан Ганегедара ; пер. с англ. В. С. Яценкова. — Москва : ДМК Пресс, 2020. — 381 с. : ил., цв. ил.; 24 см.
- Гольдберг, Й. Нейросетевые методы в обработке естественного языка / Йоав Гольдберг ; Университет им. Бар-Илана. — Москва : ДМК Пресс, 2019. — 281 с. : ил.; 24 см.
- Вакушин, А. А. Проектирование многокомпонентных имитационных моделей с помощью большой языковой модели GPT-4 / А. А. Вакушин, Б. И. Клебанов // Инженерный вестник Дона. — 2024. — № 7(115). — С. 174-186.
- Лягошина, Т. В. Большие языковые модели: влияние на публичный дискурс и общество в целом / Т. В. Лягошина // Вестник Томского государственного университета. Философия. Социология. Политология. — 2024. — № 79. — С. 111-124.
- Мифтахова, Р. Г. Обработка естественного языка с применением программных средств : монография / Р. Г. Мифтахова ; Министерство науки и высшего образования РФ, Уфимский университет науки и технологий. — Уфа : РИЦ УУНиТ, 2024. — 155 с. : ил., табл.; 21 см. — (Приоритет 2030. Лидерами становятся).
- Налимов, В. В. Вероятностная модель языка [Текст] : о соотношении естественных и искусственных языков / В. В. Налимов, [предисл. Б. В. Бирюкова]. — Москва : Наука, 1974. — 272 с., 1 л. ил. : ил.; 20 см.
- Риз, Р. Обработка естественного языка на Java : исследование разных подходов к организации и извлечению полезной текстовой информации из неструктурированных данных с использованием Java / Ричард Риз : пер. с англ. А. В. Снастина. — Москва : ДМК Пресс, 2016. — 263 с. : ил.; 21 см.
- Хобсон, Л. Обработка естественного языка в действии : 16+ / Лейн Хобсон, Хапке Ханнес, Ховард Коул ; [перевели с английского И. Пальти, С. Черников]. — Санкт-Петербург [и др.] : Питер, 2020. — 575 с. : ил.; 24 см. — (Серия "Для профессионалов").
- Шаржуков, И. О. Что такое обработка естественного языка (NLP) и как она меняет мир вокруг нас / И. О. Шаржуков, Д. А. Сафаров, Е. Р. Мысева // Финансовая безопасность — новые горизонты : Материалы X Международной научно-практической конференции Международного сетевого института в сфере ПОД/ФТ, Москва, 19–20 ноября 2024 года. — Москва: Национальный исследовательский ядерный университет МИФИ, 2024. — С. 1109-1115.
Ссылки
Для улучшения этой статьи по лингвистике желательно:
|