Распознавание активности
Распознавание активности (англ. activity recognition) — область исследований, целью которой является определение действий и намерений одного или нескольких агентов на основе последовательных наблюдений за их поведением и условиями окружающей среды. С 1980-х годов эта область привлекает внимание различных сообществ в сфере информатики благодаря возможностям персонализированной поддержки в самых разных приложениях, а также своим связям с такими дисциплинами, как медицина, человеко-компьютерное взаимодействие, социология и др[1].
Благодаря многогранному характеру «распознавание активности» также известно под названиями: распознавание планов, распознавание целей, распознавание намерений, распознавание поведения, оценка положения и сервисы, основанные на определении местоположения.
Типы
Распознавание активности на базе сенсоров сочетает современные сенсорные сети с новыми методами анализа данных и машинного обучения для моделирования широкого спектра человеческих действий[2]. Мобильные устройства (например, смартфоны) обеспечивают достаточный поток сенсорных данных и вычислительную мощность для распознавания физической активности, что, в частности, позволяет оценивать уровень энергозатрат в повседневной жизни. Исследователи считают, что оснащение повсеместных вычислительных устройств и сенсоров средствами мониторинга поведения пользователей (с их согласием) позволяет системам эффективнее действовать в интересах пользователей.
Визуальные сенсоры, такие как Kinect, объединяющие информацию о цвете и глубине, повышают точность автоматического распознавания действий и находят применение, например, в интерактивном обучении[3] и «умных» средах[4]. Использование нескольких точек обзора визуальных сенсоров позволяет применять машинное обучение для автоматического распознавания действий, инвариантных к углу обзора[5]. Более продвинутые сенсоры в 3D-системах захвата движений обеспечивают высокую точность, однако требуют сложной аппаратной инфраструктуры[6].
Распознавание активности на основе сенсоров — сложная задача из-за шума в исходных данных. Поэтому основным подходом являются статистические методы, реализующие многоуровневое распознавание последовательностей действий и их «сшивку» на различных этапах анализа. На базовом уровне решается задача локализации объектов по сенсорным данным; на среднем — определение активности по последовательностям локализаций и условиям среды; на высшем — выявление общей цели или подцелей агента на основе последовательностей действий, используя комбинацию логических и статистических рассуждений.
Распознавание активности для нескольких пользователей с использованием носимых сенсоров впервые встречается в работах ORL с активными бейджами[7] в начале 1990-х. Также применяются акселерометры для выявления моделей групповой активности в офисах[8]. В ряде работ предложены алгоритмы выявления индивидуальной и групповой активности на единой основе, используя методы добычи закономерностей из сенсорных данных[9].
Распознавание групповой активности принципиально отличается от индивидуального — задача состоит в определении поведения группы в целом[10]. Групповое поведение носит эмерджентный характер — свойства поведения группы отличаются от свойств поведения её отдельных членов[11]. Основные вызовы связаны с моделированием ролей индивидов в группе и их вкладов в общее поведение[12] и оценкой масштабируемости методов[13]. Применения: управление толпами при ЧС, социальные сети, системы самоконтроля[14].
Подходы
Логические подходы отслеживают все непротиворечивые объяснения наблюдаемых действий. Классическая формальная теория план-распознавания предложена Кауцем: все действия и планы формализуются как цели, а знания описываются иерархией событий в терминах первого порядка логики, фиксирующей абстракцию, декомпозицию и функциональные связи[15].
В худшем случае время работы модели экспоненциально по размеру иерархии. Леш и Этциони предложили методы масштабирования — автоматическую генерацию библиотек планов из примитивов предметной области и компактные алгоритмы для работы с большими библиотеками[16].
Из недостатков логических подходов — неспособность адекватно моделировать неопределённость, невозможность предпочесть одно объяснение другому, отсутствие методов обучения.
Другой логический путь — потоковое логическое моделирование на базе Answer Set Programming, применяемое, например, для целей мониторинга активности в здравоохранении[17][18] с использованием «мягких» ограничений для учета неоднозначности.
С 1990-х применяются вероятностные и статистические методы для учета неопределённости в планах и действиях агентов[19]. В ряде работ используются сенсорные данные как «вход» для систем, выявляющих рутинные действия, например, приготовление кофе[20] или режимы транспортировки на основе RFID и GPS[21].[22][23]
В качестве моделей популярны скрытые марковские модели (HMM), динамические байесовские сети и условные случайные поля (CRF)[24].[25][26] Также применяются иерархические модели, моделирующие сложную структуру человеческого поведения — например, Layered HMM и HHMM[27][28].
В отличие от классического машинного обучения, методы mining (выделения структур) подчеркивают выявление дискриминирующих (различающих) закономерностей во временных рядах активности для единого решения по последовательным, параллельным и вложенным действиям[29]. В других работах используются пространственно-временные признаки (углы, траектории), выявляемые иерархической обработкой на всех уровнях и затем анализируемые с помощью правил Априори[30].
Методы распознавания активности могут основываться и на GPS-данных[31][32].
Современные тенденции и исследования
В период 2021—2022 годов ключевой тенденцией в распознавании активности стало активное применение и адаптация моделей глубокого обучения для анализа визуальных данных. Исследователи использовали такие архитектуры, как DenseNet и MobileNet, для классификации физической активности по видео[33]. Эффективность подобных подходов подтверждалась на специализированных наборах данных, например, UCF50[33].
Значительное внимание уделялось методам, основанным на скелетной анимации. Этот подход предполагает предварительное детектирование ключевых точек (суставов) скелета человека в видеопотоке и последующий анализ их движения. Такие методы оказались менее требовательными к вычислительным ресурсам по сравнению с обработкой всего видеокадра, однако приводили к потере текстурной информации, например, данных об одежде или предметах, с которыми взаимодействует человек[34]. В 2022 году был предложен конвейерный метод, в котором элементарные действия распознаются с помощью свёрточной нейронной сети на основе скелетной модели, а общая последовательность сложных действий анализируется стохастическими моделями[35].
Параллельно продолжались исследования в области распознавания на основе данных с носимых сенсоров, таких как акселерометры в смартфонах[36]. В частности, проводились пилотные исследования по распознаванию психоэмоциональных состояний (например, стресса) по данным с датчиков мобильных устройств[37]. Возрос интерес к мультимодальным подходам, объединяющим данные из различных источников (видео, аудио, сенсоры) для создания более надёжных и точных систем[38].
Развивались и узкоспециализированные применения. Например, были представлены работы по распознаванию жестов на основе электромиографических (ЭМГ) сигналов[39], а также по распознаванию жестов русского жестового языка с учётом региональных диалектов с помощью рекуррентной нейронной сети[40].
В 2023 году исследования в области распознавания активности были сосредоточены на повышении надёжности и эффективности моделей, а также на решении проблем, связанных с приватностью данных и работой в реальных условиях. Ключевые достижения коснулись мультимодального распознавания, методов анализа скелетных моделей, энергоэффективного обучения и формирования новых концептуальных подходов.
Мультимодальное распознавание стало центральным направлением для создания более надёжных систем, устойчивых к недостаткам отдельных типов данных. В марте 2023 года была предложена модель Centaur, предназначенная для распознавания активности по данным с нескольких инерциальных датчиков. Она использует модуль очистки на основе автоэнкодера для борьбы с шумом и механизм самовнимания (self-attention) для улавливания корреляций между сенсорами, что повышает точность при наличии пропущенных данных[41].
Значительный прогресс был достигнут в распознавании на основе скелетных моделей благодаря их эффективности и устойчивости к изменениям фона и освещения. На конференции ICCV 2023 года был представлен метод самообучения MAMP (Masked Motion Prediction), который обучает трансформеры, предсказывая движение замаскированных суставов скелета, а не их статичное положение. Это позволяет моделям лучше улавливать динамику действий[42]. Для решения проблемы схожих на вид действий (например, «читать» и «писать») на конференции CVPR был предложен вспомогательный модуль FR Head, который помогает модели создавать более различимые признаки для неоднозначных активностей[43]. Также была предложена концепция добавления «узлов объектов» в граф скелета для явного учёта взаимодействия человека с предметами[44].
С ростом использования носимых устройств возросла потребность в эффективном и конфиденциальном обучении. В этой области получило развитие федеративное обучение, позволяющее обучать общую модель без передачи пользовательских данных на сервер. Была предложена архитектура CoMFL (Collaborative Multimodal Federated Learning) для умных рабочих пространств, объединяющая данные со смартфонов, часов и умных колонок[45]. Для снижения энергопотребления были разработаны гибридные модели, сочетающие импульсные нейронные сети (SNN) и LSTM. Модель S-LSTM, представленная в ноябре 2023 года, показала снижение энергопотребления на 32,3 % по сравнению с традиционными сетями при сопоставимой точности[46].
В 2023 году также появились новые парадигмы в распознавании активности.
- Воплощённый ИИ (Embodied AI): была представлена задача EHAR (Embodied Human Activity Recognition), в которой автономный агент (например, робот) учится активно перемещаться в 3D-среде, чтобы найти лучший ракурс для распознавания действия человека[47].
- Распознавание в открытом мире (Open-World Recognition): разработаны методы, позволяющие моделям не только классифицировать известные действия, но и идентифицировать новые, не встречавшиеся в обучающей выборке. Один из подходов использует автоматическую кластеризацию для маркировки новых действий и их добавления в базу знаний модели[48].
- Обучение на синтетических данных: на конференции NeurIPS была представлена работа по обучению моделей на сгенерированных данных, что позволяет обойти проблемы с конфиденциальностью и сбором больших реальных датасетов[49].
В 2024 году в распознавании активности человека (HAR) произошёл заметный сдвиг от традиционных свёрточных (CNN) и рекуррентных (RNN) сетей к архитектурам на основе трансформеров[50]. Благодаря механизму внимания (self-attention) они эффективно улавливают сложные пространственно-временные зависимости в данных. Развитие получили мультимодальные трансформеры, способные объединять данные из разных источников (видео, скелетная анимация, сигналы с датчиков)[51], и гибридные модели, такие как HybridFormer, представленная на конференции ECCV, которая объединяет локальные и глобальные характеристики для анализа действий по скелетным данным[52]. Для применения на носимых устройствах были предложены облегчённые модели, использующие дистилляцию знаний от крупных сетей к более компактным[53].
Стандартом для построения надёжных систем стало мультимодальное обучение, компенсирующее недостатки одного типа данных за счёт другого[54]. Для анализа сложных производственных процессов был представлен новый набор данных CarDA, включающий синхронизированные RGB-D видео, данные захвата движения и эргономические аннотации для анализа действий при сборке автомобилей[52]. Также был предложен фреймворк Multi³Net+, который улучшает распознавание на основе инерциальных датчиков (IMU) за счёт использования синтетических данных, сгенерированных из видео, и применения общих представлений для текста, позы и сигналов с датчиков[55].
Значительное внимание уделялось бесконтактным методам, решающим проблемы приватности. Были разработаны системы на основе радаров, анализирующие микро-доплеровские сдвиги в сигналах для распознавания действий и показавшие точность свыше 98 %[56]. В области пассивного распознавания по Wi-Fi была предложена архитектура Fusion Transformer с самообучением, которая использует для определения активности изменения в радиочастотных сигналах[57].
Новым направлением стало «контекстуально-ориентированное» распознавание (Process-aware HAR), которое учитывает не только сами движения, но и общие процессы, в рамках которых они выполняются[58]. Такой подход позволяет системе корректировать свои прогнозы на основе знаний о типичном порядке действий, что повышает общую точность[58].
В 2025 году ключевыми тенденциями в распознавании активности стали широкое применение методов самообучения (self-supervised learning) для работы с большими неразмеченными наборами данных, разработка человеко-ориентированных и вычислительно эффективных видео-трансформеров, а также развитие мультимодальных базовых моделей (Foundation Models).
В области распознавания на основе носимых сенсоров произошёл сдвиг к моделям, предварительно обученным на огромных массивах данных без ручной разметки. Исследование, использовавшее данные 700 000 человеко-дней из биобанка Великобритании, показало, что такие модели значительно превосходят традиционные подходы и лучше обобщаются на разные устройства и группы людей[59]. Для анализа временных рядов с сенсоров были адаптированы архитектуры-трансформеры, такие как MoPFormer (Motion-Primitive Transformer), представленная на конференции NeurIPS[60]. Также был предложен подход, использующий обучаемую дискретизацию, где модель с помощью векторного квантования (VQ) сопоставляет фрагменты сенсорных данных с индексами из «кодовой книги», что открывает возможности для применения аналитических инструментов из области обработки естественного языка[61].
В распознавании на основе визуальных данных основной фокус сместился на повышение эффективности и создание человеко-ориентированных моделей. Для решения проблемы высоких вычислительных затрат стандартных видео-трансформеров были разработаны рекуррентные архитектуры, такие как RViT (Recurrent Video Transformer), которые обрабатывают видео по кадрам, значительно снижая требования к памяти GPU[62]. На конференции CVPR 2025 года была представлена система H-MoRe (Human-centric Motion Representation), которая в самообучаемом режиме учится точному представлению движений человека, отфильтровывая фоновую информацию, что улучшает распознавание походки и действий[63]. Технологии также нашли применение в узкоспециализированных областях, например, в рамках конкурса Elderly Action Recognition (EAR) Challenge на конференции WACV 2025, направленного на разработку систем для повышения безопасности пожилых людей[64].
Центральным элементом исследований стали мультимодальные базовые модели, способные обрабатывать информацию из разных источников (видео, аудио, текст). На конференциях ICCV и NeurIPS 2025 года были представлены работы, посвящённые интерактивным человеко-центрированным моделям и улучшению мультимодального «мышления» систем, например, модель VideoChat-R1.5[65]. Исследователи также систематизировали стратегии слияния данных, отмечая, что подходы, основанные на механизмах внимания, часто являются наиболее адаптивными и эффективными[66].
Использование сенсоров
Анализ и распознавание поведения по видео (различные камеры и модальности) — сложная и актуальная задача. Основная технология — компьютерное зрение. Применения включают человеко-компьютерное взаимодействие, проектирование интерфейсов, обучение роботов, видеонаблюдение и др.
Методы: оптический поток, фильтр Калмана, скрытые марковские модели, режимы одной, стерео- или инфракрасной камеры; задачи — отслеживание одиночных объектов, групп, обнаружение оставленных предметов.
Современные RGBD-камеры (например, Microsoft Kinect) используются для получения данных о позах и действиях человека[67]. Получаемая скелетная информация используется для построения моделей человеческих движений и их последующего распознавания[68].
С появлением глубокого обучения быстро развиваются методы распознавания действий по видео с RGB-камер: классификация, выделение момента начала/конца действия, пространственно-временная локализация динамических объектов[69][70]. Позовые оценки позволяют извлекать выразительные скелетные признаки[71]. В то же время, обнаружено, что системы на базе глубокого обучения уязвимы к атакующему искажению входных данных.
Несмотря на прогресс, применение визуального распознавания активности для массового видеонаблюдения пока ограничено[72]. Предлагается усиливать такие системы знаниями о здравом смысле (commonsense) и контекстной информации.
Иерархическое распознавание активности человека (HAR)
Иерархическое распознавание человеческой активности (HAR) — это направление в компьютерном зрении и машинном обучении, выстраивающее модель действий в виде иерархии и учитывающее взаимозависимости между различными движениями[73]. Такие методы помогают интерпретировать связи в данных, гармонизировать точность и уровень приватности и эффективно управлять несущественными метками[74].
Процесс часто делится на четыре шага: обнаружение человека → отслеживание → распознавание действия → высокоуровневая оценка активности.
В компьютерном зрении «локализация» действий подразумевает получение сегментационных масок объектов и классификацию действия (например, методом Segment-Tube[75]). Используются динамические Марковские случайные поля, сверточные нейронные сети (CNN), LSTM — для выявления семантических связей между кадрами. Геометрические признаки (маски, позы) позволяют применять графовые нейронные сети[69][76].
Идентификация человека по походке позволяет распознавать личность даже в случае маскировки. Программное обеспечение для распознавания походки может создавать профиль и использовать его для дальнейшей идентификации.
В условиях помещений или города для распознавания активности используются сигналы Wi-Fi и точки доступа 802.11. Моделирование шумов осуществляется через динамические байесовские сети[77]. Применяются также модели многозадачности с детерминированными переходами[78]. Возможен вероятностный анализ совмещённых (параллельных) действий[79]. Для выделения активности сегментируются Wi-Fi-сигналы[80].
Современные подходы направлены на решение проблем приватности за счёт пассивного анализа радиочастотных сигналов. Так, в 2024 году была предложена архитектура Fusion Transformer с самообучением, которая использует для определения активности изменения в сигналах Wi-Fi[57]. Модель анализирует признаки, извлечённые из радиосигналов, и показывает высокую точность даже при обучении на небольшом количестве размеченных данных[57].
Суть метода — отражение, дифракция и рассеяние сигнала человеческим телом во время передачи.
При передаче беспроводных сигналов в помещениях отражения создают многолучевой эффект (multipath). В статической модели учитывается «прямая» и отражённая компоненты сигнала, что моделируется уравнением Фриса:
- где — подаваемая мощность, — принимаемая, — расстояние между антеннами, — коэффициент усиления передающей антенны, — принимающей, — длина волны.
Отражённый путь:
- где — расстояние между точкой отражения и прямым путём.
Появление человека приводит к добавлению пути:
- — добавленная длина пути за счёт тела.
С учётом движения человека путь сигнала постоянно меняется. Это проявляется сдвигом Доплера:
Вычисление сдвига Доплера позволяет идентифицировать характер движения; например, точно различать девять видов движений[81].
Зона Френеля определяет характер отражения и дифракции. Движение человека через разные зоны Френеля приводит к периодизму получаемого сигнала[82][83].
В ряде задач требуется точное моделирование тела, например, при детектировании дыхания моделируют грудную клетку как цилиндр: разница радиусов цилиндров соответствует амплитуде вдоха/выдоха[83]. Фазовый сдвиг выражается:
- где — фазовый сдвиг, — длина волны, — смещение за счёт движения.
Датасеты
Некоторые общепринятые наборы данных для тестирования алгоритмов распознавания активности:
- UCF-101: 101 класс действий человека, более 13 тыс. фрагментов, около 27 часов видео. Примеры: нанесение макияжа, игра на дхоле, крикетный удар, бритьё бороды[84].
- HMDB51: Коллекция реалистичных видеороликов из фильмов и интернета. 6849 видеоклипов, 51 категория действия («прыжок», «поцелуй», «смех»), минимум 101 клип на категорию[85].
- Kinetics: Наиболее масштабный датасет — 400 классов действий, не менее 400 видеоклипов в каждом. Каждый длится около 10 сек, взят из разных видеороликов YouTube, собран DeepMind[86].
Помимо этого, для решения узкоспециализированных задач создаются тематические наборы данных и организуются соревнования:
- CarDA: набор данных, представленный в 2024 году для анализа сложных производственных процессов. Включает синхронизированные RGB-D видео, данные захвата движения и эргономические аннотации для анализа действий при сборке автомобилей.
- Elderly Action Recognition (EAR) Challenge: соревнование в рамках конференции WACV 2025 года, направленное на разработку систем для распознавания повседневных действий пожилых людей с целью повышения их безопасности и качества жизни.
Применение
Автоматический мониторинг человеческой активности используется для организации домашней реабилитации пострадавших от черепно-мозговых травм, а также в сфере безопасности, логистики, сервисы, основанные на определении местоположения[87]. Применения также — наблюдение за дикой природой[88], энергосбережение в зданиях[89].
С развитием технологий область применения значительно расширилась. В сфере здравоохранения и благополучия системы распознавания активности используются для ухода за пожилыми людьми с целью повышения их безопасности[64], а также для анализа психоэмоциональных состояний, таких как стресс, на основе данных с сенсоров мобильных устройств[37]. Модели, обученные на больших массивах данных, таких как биобанк Великобритании, позволяют создавать обобщённые системы для мониторинга здоровья[59]. Технология также находит применение в спорте для оценки эффективности тренировок атлетов[33].
В промышленной и коммерческой сферах распознавание активности применяется для анализа сложных производственных процессов, например, при сборке автомобилей[52], и для создания «умных» рабочих пространств, где системы анализируют данные с различных устройств для оптимизации среды[45]. Системы также используются для контроля за эффективностью сотрудников и в системах безопасности для отслеживания подозрительной деятельности[33].
К узкоспециализированным и новым областям применения относятся:
- Робототехника: в рамках концепции воплощённого ИИ (Embodied AI) роботы учатся активно перемещаться для выбора наилучшего ракурса при распознавании действий человека[47].
- Инклюзивные технологии: распознавание жестов, включая языки жестов с учётом региональных диалектов[40], и анализ движений на основе электромиографических сигналов[39].
- Бесконтактный мониторинг: для сохранения приватности разрабатываются системы, анализирующие изменения в сигналах Wi-Fi[57] или радаров[56].
- Контекстуально-ориентированные системы: подходы, которые учитывают не только само движение, но и общий процесс (например, приготовление пищи), что повышает точность интерпретации действий[58].