Распознавание активности

Распознавание активности (англ. activity recognition) — область исследований, целью которой является определение действий и намерений одного или нескольких агентов на основе последовательных наблюдений за их поведением и условиями окружающей среды. С 1980-х годов эта область привлекает внимание различных сообществ в сфере информатики благодаря возможностям персонализированной поддержки в самых разных приложениях, а также своим связям с такими дисциплинами, как медицина, человеко-компьютерное взаимодействие, социология и др[1].

Благодаря многогранному характеру «распознавание активности» также известно под названиями: распознавание планов, распознавание целей, распознавание намерений, распознавание поведения, оценка положения и сервисы, основанные на определении местоположения.

Типы

Сенсорное распознавание активности для одного пользователя

Распознавание активности на базе сенсоров сочетает современные сенсорные сети с новыми методами анализа данных и машинного обучения для моделирования широкого спектра человеческих действий[2]. Мобильные устройства (например, смартфоны) обеспечивают достаточный поток сенсорных данных и вычислительную мощность для распознавания физической активности, что, в частности, позволяет оценивать уровень энергозатрат в повседневной жизни. Исследователи считают, что оснащение повсеместных вычислительных устройств и сенсоров средствами мониторинга поведения пользователей (с их согласием) позволяет системам эффективнее действовать в интересах пользователей.

Визуальные сенсоры, такие как Kinect, объединяющие информацию о цвете и глубине, повышают точность автоматического распознавания действий и находят применение, например, в интерактивном обучении[3] и «умных» средах[4]. Использование нескольких точек обзора визуальных сенсоров позволяет применять машинное обучение для автоматического распознавания действий, инвариантных к углу обзора[5]. Более продвинутые сенсоры в 3D-системах захвата движений обеспечивают высокую точность, однако требуют сложной аппаратной инфраструктуры[6].

Уровни сенсорного распознавания активности

Распознавание активности на основе сенсоров — сложная задача из-за шума в исходных данных. Поэтому основным подходом являются статистические методы, реализующие многоуровневое распознавание последовательностей действий и их «сшивку» на различных этапах анализа. На базовом уровне решается задача локализации объектов по сенсорным данным; на среднем — определение активности по последовательностям локализаций и условиям среды; на высшем — выявление общей цели или подцелей агента на основе последовательностей действий, используя комбинацию логических и статистических рассуждений.

Сенсорное распознавание активности для нескольких пользователей

Распознавание активности для нескольких пользователей с использованием носимых сенсоров впервые встречается в работах ORL с активными бейджами[7] в начале 1990-х. Также применяются акселерометры для выявления моделей групповой активности в офисах[8]. В ряде работ предложены алгоритмы выявления индивидуальной и групповой активности на единой основе, используя методы добычи закономерностей из сенсорных данных[9].

Сенсорное распознавание групповой активности

Распознавание групповой активности принципиально отличается от индивидуального — задача состоит в определении поведения группы в целом[10]. Групповое поведение носит эмерджентный характер — свойства поведения группы отличаются от свойств поведения её отдельных членов[11]. Основные вызовы связаны с моделированием ролей индивидов в группе и их вкладов в общее поведение[12] и оценкой масштабируемости методов[13]. Применения: управление толпами при ЧС, социальные сети, системы самоконтроля[14].

Подходы

Распознавание активности с помощью логики и вывода

Логические подходы отслеживают все непротиворечивые объяснения наблюдаемых действий. Классическая формальная теория план-распознавания предложена Кауцем: все действия и планы формализуются как цели, а знания описываются иерархией событий в терминах первого порядка логики, фиксирующей абстракцию, декомпозицию и функциональные связи[15].

В худшем случае время работы модели экспоненциально по размеру иерархии. Леш и Этциони предложили методы масштабирования — автоматическую генерацию библиотек планов из примитивов предметной области и компактные алгоритмы для работы с большими библиотеками[16].

Из недостатков логических подходов — неспособность адекватно моделировать неопределённость, невозможность предпочесть одно объяснение другому, отсутствие методов обучения.

Другой логический путь — потоковое логическое моделирование на базе Answer Set Programming, применяемое, например, для целей мониторинга активности в здравоохранении[17][18] с использованием «мягких» ограничений для учета неоднозначности.

Распознавание активности с учётом вероятности

С 1990-х применяются вероятностные и статистические методы для учета неопределённости в планах и действиях агентов[19]. В ряде работ используются сенсорные данные как «вход» для систем, выявляющих рутинные действия, например, приготовление кофе[20] или режимы транспортировки на основе RFID и GPS[21].[22][23]

В качестве моделей популярны скрытые марковские модели (HMM), динамические байесовские сети и условные случайные поля (CRF)[24].[25][26] Также применяются иерархические модели, моделирующие сложную структуру человеческого поведения — например, Layered HMM и HHMM[27][28].

Подходы на основе анализа данных (data mining)

В отличие от классического машинного обучения, методы mining (выделения структур) подчеркивают выявление дискриминирующих (различающих) закономерностей во временных рядах активности для единого решения по последовательным, параллельным и вложенным действиям[29]. В других работах используются пространственно-временные признаки (углы, траектории), выявляемые иерархической обработкой на всех уровнях и затем анализируемые с помощью правил Априори[30].

GPS-распознавание активности

Методы распознавания активности могут основываться и на GPS-данных[31][32].

Современные тенденции и исследования

Развитие методов глубокого обучения (2021—2022)

В период 2021—2022 годов ключевой тенденцией в распознавании активности стало активное применение и адаптация моделей глубокого обучения для анализа визуальных данных. Исследователи использовали такие архитектуры, как DenseNet и MobileNet, для классификации физической активности по видео[33]. Эффективность подобных подходов подтверждалась на специализированных наборах данных, например, UCF50[33].

Значительное внимание уделялось методам, основанным на скелетной анимации. Этот подход предполагает предварительное детектирование ключевых точек (суставов) скелета человека в видеопотоке и последующий анализ их движения. Такие методы оказались менее требовательными к вычислительным ресурсам по сравнению с обработкой всего видеокадра, однако приводили к потере текстурной информации, например, данных об одежде или предметах, с которыми взаимодействует человек[34]. В 2022 году был предложен конвейерный метод, в котором элементарные действия распознаются с помощью свёрточной нейронной сети на основе скелетной модели, а общая последовательность сложных действий анализируется стохастическими моделями[35].

Параллельно продолжались исследования в области распознавания на основе данных с носимых сенсоров, таких как акселерометры в смартфонах[36]. В частности, проводились пилотные исследования по распознаванию психоэмоциональных состояний (например, стресса) по данным с датчиков мобильных устройств[37]. Возрос интерес к мультимодальным подходам, объединяющим данные из различных источников (видео, аудио, сенсоры) для создания более надёжных и точных систем[38].

Развивались и узкоспециализированные применения. Например, были представлены работы по распознаванию жестов на основе электромиографических (ЭМГ) сигналов[39], а также по распознаванию жестов русского жестового языка с учётом региональных диалектов с помощью рекуррентной нейронной сети[40].

Мультимодальность и новые парадигмы (2023)

В 2023 году исследования в области распознавания активности были сосредоточены на повышении надёжности и эффективности моделей, а также на решении проблем, связанных с приватностью данных и работой в реальных условиях. Ключевые достижения коснулись мультимодального распознавания, методов анализа скелетных моделей, энергоэффективного обучения и формирования новых концептуальных подходов.

Мультимодальное распознавание стало центральным направлением для создания более надёжных систем, устойчивых к недостаткам отдельных типов данных. В марте 2023 года была предложена модель Centaur, предназначенная для распознавания активности по данным с нескольких инерциальных датчиков. Она использует модуль очистки на основе автоэнкодера для борьбы с шумом и механизм самовнимания (self-attention) для улавливания корреляций между сенсорами, что повышает точность при наличии пропущенных данных[41].

Значительный прогресс был достигнут в распознавании на основе скелетных моделей благодаря их эффективности и устойчивости к изменениям фона и освещения. На конференции ICCV 2023 года был представлен метод самообучения MAMP (Masked Motion Prediction), который обучает трансформеры, предсказывая движение замаскированных суставов скелета, а не их статичное положение. Это позволяет моделям лучше улавливать динамику действий[42]. Для решения проблемы схожих на вид действий (например, «читать» и «писать») на конференции CVPR был предложен вспомогательный модуль FR Head, который помогает модели создавать более различимые признаки для неоднозначных активностей[43]. Также была предложена концепция добавления «узлов объектов» в граф скелета для явного учёта взаимодействия человека с предметами[44].

С ростом использования носимых устройств возросла потребность в эффективном и конфиденциальном обучении. В этой области получило развитие федеративное обучение, позволяющее обучать общую модель без передачи пользовательских данных на сервер. Была предложена архитектура CoMFL (Collaborative Multimodal Federated Learning) для умных рабочих пространств, объединяющая данные со смартфонов, часов и умных колонок[45]. Для снижения энергопотребления были разработаны гибридные модели, сочетающие импульсные нейронные сети (SNN) и LSTM. Модель S-LSTM, представленная в ноябре 2023 года, показала снижение энергопотребления на 32,3 % по сравнению с традиционными сетями при сопоставимой точности[46].

В 2023 году также появились новые парадигмы в распознавании активности.

  • Воплощённый ИИ (Embodied AI): была представлена задача EHAR (Embodied Human Activity Recognition), в которой автономный агент (например, робот) учится активно перемещаться в 3D-среде, чтобы найти лучший ракурс для распознавания действия человека[47].
  • Распознавание в открытом мире (Open-World Recognition): разработаны методы, позволяющие моделям не только классифицировать известные действия, но и идентифицировать новые, не встречавшиеся в обучающей выборке. Один из подходов использует автоматическую кластеризацию для маркировки новых действий и их добавления в базу знаний модели[48].
  • Обучение на синтетических данных: на конференции NeurIPS была представлена работа по обучению моделей на сгенерированных данных, что позволяет обойти проблемы с конфиденциальностью и сбором больших реальных датасетов[49].

Доминирование трансформеров и альтернативные сенсоры (2024)

В 2024 году в распознавании активности человека (HAR) произошёл заметный сдвиг от традиционных свёрточных (CNN) и рекуррентных (RNN) сетей к архитектурам на основе трансформеров[50]. Благодаря механизму внимания (self-attention) они эффективно улавливают сложные пространственно-временные зависимости в данных. Развитие получили мультимодальные трансформеры, способные объединять данные из разных источников (видео, скелетная анимация, сигналы с датчиков)[51], и гибридные модели, такие как HybridFormer, представленная на конференции ECCV, которая объединяет локальные и глобальные характеристики для анализа действий по скелетным данным[52]. Для применения на носимых устройствах были предложены облегчённые модели, использующие дистилляцию знаний от крупных сетей к более компактным[53].

Стандартом для построения надёжных систем стало мультимодальное обучение, компенсирующее недостатки одного типа данных за счёт другого[54]. Для анализа сложных производственных процессов был представлен новый набор данных CarDA, включающий синхронизированные RGB-D видео, данные захвата движения и эргономические аннотации для анализа действий при сборке автомобилей[52]. Также был предложен фреймворк Multi³Net+, который улучшает распознавание на основе инерциальных датчиков (IMU) за счёт использования синтетических данных, сгенерированных из видео, и применения общих представлений для текста, позы и сигналов с датчиков[55].

Значительное внимание уделялось бесконтактным методам, решающим проблемы приватности. Были разработаны системы на основе радаров, анализирующие микро-доплеровские сдвиги в сигналах для распознавания действий и показавшие точность свыше 98 %[56]. В области пассивного распознавания по Wi-Fi была предложена архитектура Fusion Transformer с самообучением, которая использует для определения активности изменения в радиочастотных сигналах[57].

Новым направлением стало «контекстуально-ориентированное» распознавание (Process-aware HAR), которое учитывает не только сами движения, но и общие процессы, в рамках которых они выполняются[58]. Такой подход позволяет системе корректировать свои прогнозы на основе знаний о типичном порядке действий, что повышает общую точность[58].

Самообучение и базовые модели (2025)

В 2025 году ключевыми тенденциями в распознавании активности стали широкое применение методов самообучения (self-supervised learning) для работы с большими неразмеченными наборами данных, разработка человеко-ориентированных и вычислительно эффективных видео-трансформеров, а также развитие мультимодальных базовых моделей (Foundation Models).

В области распознавания на основе носимых сенсоров произошёл сдвиг к моделям, предварительно обученным на огромных массивах данных без ручной разметки. Исследование, использовавшее данные 700 000 человеко-дней из биобанка Великобритании, показало, что такие модели значительно превосходят традиционные подходы и лучше обобщаются на разные устройства и группы людей[59]. Для анализа временных рядов с сенсоров были адаптированы архитектуры-трансформеры, такие как MoPFormer (Motion-Primitive Transformer), представленная на конференции NeurIPS[60]. Также был предложен подход, использующий обучаемую дискретизацию, где модель с помощью векторного квантования (VQ) сопоставляет фрагменты сенсорных данных с индексами из «кодовой книги», что открывает возможности для применения аналитических инструментов из области обработки естественного языка[61].

В распознавании на основе визуальных данных основной фокус сместился на повышение эффективности и создание человеко-ориентированных моделей. Для решения проблемы высоких вычислительных затрат стандартных видео-трансформеров были разработаны рекуррентные архитектуры, такие как RViT (Recurrent Video Transformer), которые обрабатывают видео по кадрам, значительно снижая требования к памяти GPU[62]. На конференции CVPR 2025 года была представлена система H-MoRe (Human-centric Motion Representation), которая в самообучаемом режиме учится точному представлению движений человека, отфильтровывая фоновую информацию, что улучшает распознавание походки и действий[63]. Технологии также нашли применение в узкоспециализированных областях, например, в рамках конкурса Elderly Action Recognition (EAR) Challenge на конференции WACV 2025, направленного на разработку систем для повышения безопасности пожилых людей[64].

Центральным элементом исследований стали мультимодальные базовые модели, способные обрабатывать информацию из разных источников (видео, аудио, текст). На конференциях ICCV и NeurIPS 2025 года были представлены работы, посвящённые интерактивным человеко-центрированным моделям и улучшению мультимодального «мышления» систем, например, модель VideoChat-R1.5[65]. Исследователи также систематизировали стратегии слияния данных, отмечая, что подходы, основанные на механизмах внимания, часто являются наиболее адаптивными и эффективными[66].

Использование сенсоров

Визуальное (на основе изображений) распознавание активности

Анализ и распознавание поведения по видео (различные камеры и модальности) — сложная и актуальная задача. Основная технология — компьютерное зрение. Применения включают человеко-компьютерное взаимодействие, проектирование интерфейсов, обучение роботов, видеонаблюдение и др.

Методы: оптический поток, фильтр Калмана, скрытые марковские модели, режимы одной, стерео- или инфракрасной камеры; задачи — отслеживание одиночных объектов, групп, обнаружение оставленных предметов.

Современные RGBD-камеры (например, Microsoft Kinect) используются для получения данных о позах и действиях человека[67]. Получаемая скелетная информация используется для построения моделей человеческих движений и их последующего распознавания[68].

С появлением глубокого обучения быстро развиваются методы распознавания действий по видео с RGB-камер: классификация, выделение момента начала/конца действия, пространственно-временная локализация динамических объектов[69][70]. Позовые оценки позволяют извлекать выразительные скелетные признаки[71]. В то же время, обнаружено, что системы на базе глубокого обучения уязвимы к атакующему искажению входных данных.

Несмотря на прогресс, применение визуального распознавания активности для массового видеонаблюдения пока ограничено[72]. Предлагается усиливать такие системы знаниями о здравом смысле (commonsense) и контекстной информации.

Иерархическое распознавание активности человека (HAR)

Иерархическое распознавание человеческой активности (HAR) — это направление в компьютерном зрении и машинном обучении, выстраивающее модель действий в виде иерархии и учитывающее взаимозависимости между различными движениями[73]. Такие методы помогают интерпретировать связи в данных, гармонизировать точность и уровень приватности и эффективно управлять несущественными метками[74].

Уровни визуального распознавания активности

Процесс часто делится на четыре шага: обнаружение человека → отслеживание → распознавание действия → высокоуровневая оценка активности.

Точное определение момента действия

В компьютерном зрении «локализация» действий подразумевает получение сегментационных масок объектов и классификацию действия (например, методом Segment-Tube[75]). Используются динамические Марковские случайные поля, сверточные нейронные сети (CNN), LSTM — для выявления семантических связей между кадрами. Геометрические признаки (маски, позы) позволяют применять графовые нейронные сети[69][76].

Автоматическое распознавание походки

Идентификация человека по походке позволяет распознавать личность даже в случае маскировки. Программное обеспечение для распознавания походки может создавать профиль и использовать его для дальнейшей идентификации.

Распознавание по Wi-Fi

В условиях помещений или города для распознавания активности используются сигналы Wi-Fi и точки доступа 802.11. Моделирование шумов осуществляется через динамические байесовские сети[77]. Применяются также модели многозадачности с детерминированными переходами[78]. Возможен вероятностный анализ совмещённых (параллельных) действий[79]. Для выделения активности сегментируются Wi-Fi-сигналы[80].

Современные подходы направлены на решение проблем приватности за счёт пассивного анализа радиочастотных сигналов. Так, в 2024 году была предложена архитектура Fusion Transformer с самообучением, которая использует для определения активности изменения в сигналах Wi-Fi[57]. Модель анализирует признаки, извлечённые из радиосигналов, и показывает высокую точность даже при обучении на небольшом количестве размеченных данных[57].

Базовые модели распознавания по Wi-Fi

Суть метода — отражение, дифракция и рассеяние сигнала человеческим телом во время передачи.

Статическая модель передачи

При передаче беспроводных сигналов в помещениях отражения создают многолучевой эффект (multipath). В статической модели учитывается «прямая» и отражённая компоненты сигнала, что моделируется уравнением Фриса:

где — подаваемая мощность, — принимаемая, — расстояние между антеннами, — коэффициент усиления передающей антенны, — принимающей, — длина волны.

Отражённый путь:

где — расстояние между точкой отражения и прямым путём.

Появление человека приводит к добавлению пути:

— добавленная длина пути за счёт тела.
Динамическая модель передачи

С учётом движения человека путь сигнала постоянно меняется. Это проявляется сдвигом Доплера:

Вычисление сдвига Доплера позволяет идентифицировать характер движения; например, точно различать девять видов движений[81].

Зоны Френеля

Зона Френеля определяет характер отражения и дифракции. Движение человека через разные зоны Френеля приводит к периодизму получаемого сигнала[82][83].

Моделирование человеческого тела

В ряде задач требуется точное моделирование тела, например, при детектировании дыхания моделируют грудную клетку как цилиндр: разница радиусов цилиндров соответствует амплитуде вдоха/выдоха[83]. Фазовый сдвиг выражается:

где — фазовый сдвиг, — длина волны, — смещение за счёт движения.

Датасеты

Некоторые общепринятые наборы данных для тестирования алгоритмов распознавания активности:

  • UCF-101: 101 класс действий человека, более 13 тыс. фрагментов, около 27 часов видео. Примеры: нанесение макияжа, игра на дхоле, крикетный удар, бритьё бороды[84].
  • HMDB51: Коллекция реалистичных видеороликов из фильмов и интернета. 6849 видеоклипов, 51 категория действия («прыжок», «поцелуй», «смех»), минимум 101 клип на категорию[85].
  • Kinetics: Наиболее масштабный датасет — 400 классов действий, не менее 400 видеоклипов в каждом. Каждый длится около 10 сек, взят из разных видеороликов YouTube, собран DeepMind[86].

Помимо этого, для решения узкоспециализированных задач создаются тематические наборы данных и организуются соревнования:

  • CarDA: набор данных, представленный в 2024 году для анализа сложных производственных процессов. Включает синхронизированные RGB-D видео, данные захвата движения и эргономические аннотации для анализа действий при сборке автомобилей.
  • Elderly Action Recognition (EAR) Challenge: соревнование в рамках конференции WACV 2025 года, направленное на разработку систем для распознавания повседневных действий пожилых людей с целью повышения их безопасности и качества жизни.

Применение

Автоматический мониторинг человеческой активности используется для организации домашней реабилитации пострадавших от черепно-мозговых травм, а также в сфере безопасности, логистики, сервисы, основанные на определении местоположения[87]. Применения также — наблюдение за дикой природой[88], энергосбережение в зданиях[89].

С развитием технологий область применения значительно расширилась. В сфере здравоохранения и благополучия системы распознавания активности используются для ухода за пожилыми людьми с целью повышения их безопасности[64], а также для анализа психоэмоциональных состояний, таких как стресс, на основе данных с сенсоров мобильных устройств[37]. Модели, обученные на больших массивах данных, таких как биобанк Великобритании, позволяют создавать обобщённые системы для мониторинга здоровья[59]. Технология также находит применение в спорте для оценки эффективности тренировок атлетов[33].

В промышленной и коммерческой сферах распознавание активности применяется для анализа сложных производственных процессов, например, при сборке автомобилей[52], и для создания «умных» рабочих пространств, где системы анализируют данные с различных устройств для оптимизации среды[45]. Системы также используются для контроля за эффективностью сотрудников и в системах безопасности для отслеживания подозрительной деятельности[33].

К узкоспециализированным и новым областям применения относятся:

  • Робототехника: в рамках концепции воплощённого ИИ (Embodied AI) роботы учатся активно перемещаться для выбора наилучшего ракурса при распознавании действий человека[47].
  • Инклюзивные технологии: распознавание жестов, включая языки жестов с учётом региональных диалектов[40], и анализ движений на основе электромиографических сигналов[39].
  • Бесконтактный мониторинг: для сохранения приватности разрабатываются системы, анализирующие изменения в сигналах Wi-Fi[57] или радаров[56].
  • Контекстуально-ориентированные системы: подходы, которые учитывают не только само движение, но и общий процесс (например, приготовление пищи), что повышает точность интерпретации действий[58].

Примечания

  1. Choudhury, Tanzeem; Gaetano Borriello (Апрель 2008). “The Mobile Sensing Platform: An Embedded System for Activity Recognition”. IEEE Pervasive Magazine – Special Issue on Activity-Based Computing [англ.].
  2. Ravi, Nishkam; Nikhil Dandekar; Preetham Mysore; Michael Littman (2005). “Activity Recognition from Accelerometer Data” (PDF). Proceedings of the Seventeenth Conference on Innovative Applications of Artificial Intelligence (IAAI/AAAI 2005) [англ.].
  3. Yang, Yang; Howard Leung; Hubert P. H. Shum; Jiao Li; Lanling Zeng; Nauman Aslam; Zhigeng Pan (2018). “CCESK: A Chinese Character Educational System Based on Kinect”. IEEE Transactions on Learning Technologies [англ.]. 11 (3): 342—347. DOI:10.1109/TLT.2017.2723888. S2CID 52899136.
  4. Ho, Edmond S. L.; Jacky C. P. Chan; Donald C. K. Chan; Hubert P. H. Shum; Yiu-ming Cheung; P. C. Yuen (2016). “Improving Posture Classification Accuracy for Depth Sensor-based Human Activity Monitoring in Smart Environments”. Computer Vision and Image Understanding [англ.]. 148: 97—110. DOI:10.1016/j.cviu.2015.12.011. S2CID 207060860.
  5. Zhang, Jingtian; Hubert P. H. Shum; Jungong Han; Ling Shao (2018). “Action Recognition from Arbitrary Views Using Transferable Dictionary Learning”. IEEE Transactions on Image Processing [англ.]. 27 (10): 4709—4723. DOI:10.1109/TIP.2018.2836323. PMID 29994770. S2CID 49536771.
  6. Shen, Yijun; Longzhi Yang; Edmond S. L. Ho; Hubert P. H. Shum (2020). “Interaction-based Human Activity Comparison”. IEEE Transactions on Visualization and Computer Graphics [англ.]. 26 (8): 115673—115684. DOI:10.1109/TVCG.2019.2893247. PMID 30703028. S2CID 73447673.
  7. Want R., Hopper A., Falcao V., Gibbons J.: The Active Badge Location System, ACM Transactions on Information, Systems, т. 40, № 1, стр. 91–102, январь 1992.
  8. Bieber G., Kirste T., Untersuchung des gruppendynamischen Aktivitaetsverhaltes im Office-Umfeld, 7. Berliner Werkstatt Mensch-Maschine-Systeme, Berlin, 2007.
  9. Gu T., Wu Z., Wang L., Tao X., Lu J. Mining Emerging Patterns for Recognizing Activities of Multiple Users in Pervasive Computing. In Proc. of the 6th Int. Conf. on Mobile and Ubiquitous Systems: Computing, Networking and Services (MobiQuitous '09), Toronto, 2009.
  10. Gordon D., Hanne J.-H., Berchtold M., Nazari Shirehjini A., Beigl M. Towards Collaborative Group Activity Recognition Using Mobile Devices, Mobile Networks and Applications 18(3), 2013, стр. 326–340.
  11. Lewin K. Field theory in social science: selected theoretical papers. Harper, New York, 1951.
  12. Hirano T., Maekawa T. A hybrid unsupervised/supervised model for group activity recognition. In Proceedings of the 2013 International Symposium on Wearable Computers, ISWC ’13, ACM, New York, 2013, стр. 21–24.
  13. Brdiczka O., Maisonnasse J., Reignier P., Crowley J. L. Detecting small group activities from multimodal observations. Applied Intelligence 30, 1 (2007), 47–57.
  14. Gordon D. Group Activity Recognition Using Wearable Sensing Devices, Dissertation, Karlsruhe Institute of Technology, 2014.
  15. Kautz H. A formal theory of plan recognition. PhD thesis, University of Rochester, 1987.
  16. Lesh N., Etzioni O. A sound and fast goal recognizer. Proceedings of the International Joint Conference on Artificial Intelligence, 1995.
  17. Do, Thang. Answer Set Programming for Stream Reasoning // Advances in Artificial Intelligence : [англ.] / Thang Do, Seng W. Loke, Fei Liu. — 2011. — Vol. 6657. — P. 104–109. — ISBN 978-3-642-21042-6. — doi:10.1007/978-3-642-21043-3_13.
  18. Do, Thang; Seng W. Loke; Fei Liu. “HealthyLife: an Activity Recognition System with Smartphone using Logic-Based Stream Reasoning” (PDF). Proc. 9th Int. Conf. on Mobile and Ubiquitous Systems, 2012 [англ.].
  19. Charniak E., Goldman R. P. A Bayesian model of plan recognition. Artificial Intelligence, 64:53–79, 1993.
  20. Hodges M. R., Pollack M. E. An 'object-use fingerprint': The use of electronic sensors for human identification. Proceedings of the 9th Int. Conf. on Ubiquitous Computing, 2007.
  21. Perkowitz M., Philipose M., Patterson D. J., Fishkin K. Mining models of human activities from the web. Proceedings of the 13th Int. WWW Conf, 2004.
  22. Philipose M. и др. Inferring activities from interactions with objects. IEEE Pervasive Computing, 2004.
  23. Fox D., Liao L., Patterson D. J., Kautz H. A. Learning and inferring transportation routines. Artif. Intell., 171(5–6):311–331, 2007.
  24. Piyathilaka L., Kodagoda S. Gaussian mixture based HMM for human daily activity recognition using 3D skeleton features. Industrial Electronics and Applications (ICIEA), 2013. URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6566433&isnumber=6566328
  25. TLM van Kasteren, Englebienne G., Kröse B. Hierarchical Activity Recognition Using Automatically Clustered Actions, 2011.
  26. Wilson D., Atkeson C. Simultaneous tracking and activity recognition (star) using many anonymous binary sensors. Proc. 3rd Int. Conf. on Pervasive Computing, 2005.
  27. Nuria Oliver, Garg A., Horvitz E. Layered representations for learning and inferring office activity from multiple sensory channels. Comput. Vis. Image Underst., 2004.
  28. Subramanya A., Raj A., Bilmes J., Fox D. Hierarchical models for activity recognition. Multimedia Signal Processing, 2006.
  29. Gu T., Wu Z., Tao X., Pung H. K., Lu J. epSICAR: An Emerging Patterns based Approach to Sequential, Interleaved and Concurrent Activity Recognition. Proc. 7th IEEE International Conference on Pervasive Computing and Communications, 2009.
  30. Gilbert A., Illingworth J., Bowden R. Action Recognition using Mined Hierarchical Compound Features. IEEE Trans Pattern Analysis and Machine Learning.
  31. Liao L., Fox D., Kautz H. Hierarchical conditional random fields for GPS-based activity recognition. Robotics Research. Springer, 2007.
  32. Liao L., Fox D., Kautz H. Location-based activity recognition. Advances in Neural Information Processing Systems, 2006.
  33. 1 2 3 4 Распознавание активности человека по видеоданным. КиберЛенинка. Дата обращения: 3 ноября 2025.
  34. Распознавание действий на видео: подходы и перспективы. Хабр. Дата обращения: 3 ноября 2025.
  35. Распознавание сложных действий человека по видео на основе скелетной модели и стохастических грамматик. elib.utmn.ru. Дата обращения: 3 ноября 2025.
  36. Разработка системы распознавания активности человека на основе данных акселерометра. elar.urfu.ru. Дата обращения: 3 ноября 2025. Архивировано 5 мая 2024 года.
  37. 1 2 Цифровая аналитика эмоций: пилотажное исследование распознавания эмоций человека с помощью сенсоров мобильных устройств. КиберЛенинка. Дата обращения: 3 ноября 2025.
  38. Разработка методов и моделей мультимодального распознавания сложных видов деятельности человека на основе комплексирования данных видеопотока и инерциальных датчиков. РНФ. Дата обращения: 3 ноября 2025. Архивировано 27 ноября 2023 года.
  39. 1 2 Анализ эффективности методов машинного обучения для распознавания жестов на основе электромиографических сигналов. crm.ics.org.ru. Дата обращения: 3 ноября 2025. Архивировано 6 мая 2025 года.
  40. 1 2 Распознавание жестов русского жестового языка с учетом региональных диалектов. ГрафиКон-2022. Дата обращения: 3 ноября 2025. Архивировано 7 июля 2025 года.
  41. Centaur: A Framework for Calibrating and Fusing Multi-Sensor Data for Human Activity Recognition. arXiv (8 марта 2023). Дата обращения: 3 ноября 2025. Архивировано 13 мая 2025 года.
  42. Masked Motion Predictors are Strong 3D Action Representation Learners. ICCV 2023. Дата обращения: 3 ноября 2025. Архивировано 3 октября 2025 года.
  43. Learning Discriminative Representations for Skeleton-Based Action Recognition. CVPR 2023. Дата обращения: 3 ноября 2025. Архивировано 3 октября 2025 года.
  44. Object-centric Video Representation for Long-term Action Recognition. arXiv (13 января 2025). Дата обращения: 3 ноября 2025. Архивировано 15 января 2025 года.
  45. 1 2 CoMFL: Collaborative Multimodal Federated Learning for Human Activity Recognition in Smart Workspace. OpenReview.net. Дата обращения: 3 ноября 2025.
  46. S-LSTM: An Energy-Efficient Spiking-LSTM Model for Human Activity Recognition. MDPI (22 ноября 2023). Дата обращения: 3 ноября 2025. Архивировано 10 июля 2024 года.
  47. 1 2 Embodied Human Activity Recognition. WACV 2024. Дата обращения: 3 ноября 2025. Архивировано 3 октября 2025 года.
  48. An Open-World Human Activity Recognition Approach Based on Automated Class Labeling. PAAA@CIBI 2023. Дата обращения: 3 ноября 2025. Архивировано 16 апреля 2024 года.
  49. Learning Human Action Recognition Representations Without Real Humans. IBM Research. Дата обращения: 3 ноября 2025. Архивировано 25 мая 2025 года.
  50. A Comprehensive Review on Transformer-based Human Activity Recognition. arXiv (28 мая 2024). Дата обращения: 3 ноября 2025. Архивировано 18 декабря 2024 года.
  51. Multimodal Transformer for Nursing Activity Recognition. ResearchGate. Дата обращения: 3 ноября 2025.
  52. 1 2 3 HybridFormer: A Hybrid Transformer for Skeleton-based Action Recognition. Springer Professional. Дата обращения: 3 ноября 2025. Архивировано 26 августа 2016 года.
  53. Multi-agent Transformer Networks for Multimodal Human Activity Recognition. ResearchGate. Дата обращения: 3 ноября 2025. Архивировано 10 мая 2023 года.
  54. Multimodal Human Activity Recognition: A Comprehensive Review. MDPI (15 марта 2024). Дата обращения: 3 ноября 2025. Архивировано 22 марта 2025 года.
  55. Multi³Net+: Improving IMU-based HAR with Synthetic Data from Videos via Cross-Modal Knowledge Transfer. Frontiers in Computer Science. Дата обращения: 3 ноября 2025. Архивировано 21 августа 2025 года.
  56. 1 2 A Novel Radar-Based Human Activity Recognition Method Using 2S 1D-CNN+COO+BiGRU. MDPI (12 апреля 2024). Дата обращения: 3 ноября 2025. Архивировано 19 июля 2025 года.
  57. 1 2 3 4 Fusion transformer with self-supervised learning for WiFi-based human activity recognition. IET (23 января 2024). Дата обращения: 3 ноября 2025.
  58. 1 2 3 Process-aware Human Activity Recognition. arXiv (13 ноября 2024). Дата обращения: 3 ноября 2025. Архивировано 14 ноября 2024 года.
  59. 1 2 Self-supervised learning of accelerometer data provides a new paradigm for human activity modelling. University of Oxford. Дата обращения: 3 ноября 2025. Архивировано 13 июля 2025 года.
  60. MoPFormer: A Motion-Primitive Transformer for Wearable Sensor-based Human Activity Recognition. NeurIPS. Дата обращения: 3 ноября 2025. Архивировано 23 октября 2025 года.
  61. A Study on Learned Discretization for Wearable-Based Human Activity Recognition. MDPI (13 февраля 2024). Дата обращения: 3 ноября 2025. Архивировано 11 марта 2025 года.
  62. Recurring the Transformer for Video Action Recognition. CVPR 2022. Дата обращения: 3 ноября 2025. Архивировано 3 октября 2025 года.
  63. H-MoRe: Learning Human-centric Motion Representation for Action Analysis. CVPR 2025. Дата обращения: 3 ноября 2025. Архивировано 3 октября 2025 года.
  64. 1 2 Elderly Action Recognition (EAR) Challenge at WACV 2025. Kaggle. Дата обращения: 3 ноября 2025.
  65. VideoChat-R1.5: Improving Multimodal Reasoning via Iterative Perception. NeurIPS. Дата обращения: 3 ноября 2025. Архивировано 23 октября 2025 года.
  66. Fusion Strategies in Multi-Modal Deep Learning for Human Activity Recognition: A Comparative Study of Early, Late, and Attention-Based Fusion. ResearchGate. Дата обращения: 3 ноября 2025.
  67. Shum, Hubert P. H.; Edmond S. L. Ho; Yang Jiang; Shu Takagi (2013). “Real-Time Posture Reconstruction for Microsoft Kinect”. IEEE Transactions on Cybernetics [англ.]. 43 (5): 1357—1369. DOI:10.1109/TCYB.2013.2275945. PMID 23981562. S2CID 14124193.
  68. Piyathilaka L., Kodagoda S., 2015. Human activity recognition for domestic robots. In Field and Service Robotics (стр. 395–408). Springer, Cham. [1]
  69. 1 2 Qiao, Tanqiu; Qianhui Men; Frederick W. B. Li; Yoshiki Kubotani; Shigeo Morishima; Hubert P. H. Shum (2022). Geometric Features Informed Multi-person Human-object Interaction Recognition in Videos. Lecture Notes in Computer Science [англ.]. 13664. pp. 474—491. arXiv:2207.09425. DOI:10.1007/978-3-031-19772-7_28. ISBN 978-3-031-19772-7.
  70. Men, Qianhui; Edmond S. L. Ho; Hubert P. H. Shum; Howard Leung (2023). “Focalized Contrastive View-Invariant Learning for Self-Supervised Skeleton-Based Action Recognition”. Neurocomputing [англ.]. 537: 198—209. arXiv:2304.00858. DOI:10.1016/j.neucom.2023.03.070.
  71. Lu, Zhengzhi; Wang He; Chang Ziyi; Yang Guoan; Hubert P. H. Shum (2023). Hard No-Box Adversarial Attack on Skeleton-Based Human Action Recognition with Skeleton-Motion-Informed Gradient [англ.]. IEEE/CVF. arXiv:2308.05681.
  72. Bux, Allah; Plamen Angelov; Zulfiqar Habib (2017). “A comprehensive review on handcrafted and learning-based action representation approaches for human activity recognition”. Applied Sciences [англ.]. 7 (1): 110. DOI:10.3390/app7010110.
  73. Aggarwal, J.K.; M.S. Ryoo (29 апреля 2011). “Human activity analysis: A review”. ACM Computing Surveys [англ.]. 43 (3): 16:1–16:43. DOI:10.1145/1922649.1922653.
  74. Altın, Mahsun; Furkan Gürsoy; Lina Xu (2021). “Machine-Generated Hierarchical Structure of Human Activities to Reveal How Machines Think”. IEEE Access [англ.]. 9: 18307—18317. arXiv:2101.07855. DOI:10.1109/ACCESS.2021.3053084.
  75. Wang, Le; Xuhuan Duan; Qilin Zhang; Zhenxing Niu; Gang Hua; Nanning Zheng (22 мая 2018). “Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation” (PDF). Sensors [англ.]. 18 (5): 1657. DOI:10.3390/s18051657. PMC 5982167. PMID 29789447.
  76. Zhang, Xiatian; Noura Al Moubayed; Hubert P. H. Shum (2022). “Towards Graph Representation Learning Based Surgical Workflow Anticipation”. 2022 IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI) [англ.]. pp. 01—04. arXiv:2208.03824. DOI:10.1109/BHI56158.2022.9926801. ISBN 978-1-6654-8791-7.
  77. Yin J., Chai X., Yang Q. High-level Goal Recognition in a Wireless LAN. Proceedings of the Nineteenth National Conference on Artificial Intelligence, 2004.
  78. Chai X., Yang Q. Multiple-Goal Recognition From Low-level Signals. Proc. Twentieth National Conference on Artificial Intelligence, 2005.
  79. Hu D. H., Yang Q. CIGAR: Concurrent and Interleaving Goal and Activity Recognition. AAAI 2008.
  80. Yin J., Shen D., Yang Q., Li Z.-n. Activity Recognition through Goal-Based Segmentation. AAAI 2005.
  81. Pu Q., Gupta S., Gollakota S., Patel S. Whole-home gesture recognition using wireless signals. Proc. 19th Annual Int. Conf. on Mobile Computing and Networking, 2013.
  82. Wu D., Zhang D., Xu C., Wang Y., Wang H. Wider: Walking direction estimation using wireless signals. Proc. ACM International Joint Conference on Pervasive and Ubiquitous Computing, 2016.
  83. 1 2 Wang H., Zhang D., Ma J., Wang Y., Xie B. Human respiration detection with commodity wifi devices. Proc. ACM International Joint Conference on Pervasive and Ubiquitous Computing, 2016.
  84. UCF101 – Action Recognition Data Set. CRCV (2021). Дата обращения: 20 июня 2024. Архивировано 23 января 2020 года.
  85. Papers with Code – HMDB51 Dataset (англ.). paperswithcode.com. Дата обращения: 20 июня 2024. Архивировано 17 апреля 2025 года.
  86. Kay, Will; Joao Carreira; Karen Simonyan; Brian Zhang; Chloe Hillier; Sudheendra Vijayanarasimhan; Fabio Viola; Tim Green; Trevor Back; Paul Natsev; Mustafa Suleyman (19 мая 2017). “The Kinetics Human Action Video Dataset”. arXiv preprint [англ.]. arXiv:1705.06950.
  87. Pollack M. E., Tsamardinos I. и др. Autominder: an intelligent cognitive orthotic system for people with memory impairment. Robotics and Autonomous Systems 44(3–4):273–282, 2003.
  88. Gao L. и др. A Web-based semantic tagging and activity recognition system for species' accelerometry data. Ecological Informatics 13 (2013): 47–56.
  89. Nguyen T. A., Aiello M. Energy intelligent buildings based on user activity: A survey. Energy and buildings 56 (2013): 244–257.