Gemini Live

Gemini Live — голосовой помощник с искусственным интеллектом, представленный компанией Google 14 мая 2024 как главный конкурент GPT-4o. Использует улучшенную мультимодальную модель искусственного интеллекта, чтобы предложить пользователям более естественное общение в режиме реального времени.

Презентация состоялась на конференции «Google I/O 2024»[1][2]. Разработчики представили новую возможность для ИИ-чат-бота Gemini — функцию Gemini Live, которая позволяет пользователям вести «углублённые» голосовые диалоги с Gemini на своих смартфонах. Одна из ключевых особенностей заключается в том, что пользователи могут прерывать Gemini во время его реплик, чтобы задать уточняющие вопросы, и чат-бот будет адаптироваться к речи пользователя в режиме реального времени. Кроме того, Gemini может видеть и реагировать на окружение пользователя, используя фотографии или видео, снятые камерами смартфонов[3][4].

Сроки запуска — конец 2024 года[5].

Общие сведения

История

Gemini Live разработали в рамках проекта DeepMind Project Astra. Он предназначен для работы с текстом, аудио и изображениями в реальном времени. Цель проекта — создать универсального агента для повседневного использования[1].

Разработка стартовала в 2023 году. По состоянию на дату презентации устройство ещё находилось в стадии доработки. Официально объявленная дата выхода — сентябрь 2024 года[3][1], после чего Gemini Live будет адаптироваться и совершенствоваться[6].

Описание

Виртуальный ассистент Gemini Live, как заявляют разработчики, является своеобразным соединением платформы компьютерного зрения Google Lens и виртуального помощника Google Assistant, и их дальнейшая эволюция. На первый взгляд Gemini Live не кажется кардинальным обновлением по сравнению с существующими технологиями. Однако Google утверждает, что система использует новые методы генеративного ИИ, чтобы обеспечить превосходный, менее подверженный ошибкам анализ изображений, и сочетает эти методы с улучшенным речевым движком для более последовательного, эмоционально выразительного и реалистичного многооборотного диалога[3][7][8].

Панируется, что ассистент также сможет самостоятельно работать с Gmail-почтой, в т. ч. отвечать на письма при необходимости, согласно установленным ранее задачам и инструкциям. Также Gemini Live будет взаимодействовать и с другими сервисами Google[2].

Демис Хассабис (Demis Hassabis), генеральный директор DeepMind:

«Мы всегда хотели создать универсального агента, который будет полезен в повседневной жизни. Представьте себе агентов, которые могут видеть и слышать то, что мы делаем, лучше понимать контекст, в котором мы находимся, и быстро реагировать в разговоре, делая темп и качество взаимодействия гораздо более естественными».

Для пользователей будет доступен выбор 1 из 10 различных голосов виртуального помощника[9].

Сравнение

Эксперты сравнивают Gemini Live с представленной ранее GPT-4o от OpenAI[10]: ИИ-модель оптимизирована для обработки запросов пользователей практически без задержек, а общение максимально приближено к естественной диалоговой форме[4][9].

Подписка

Google объявила, что Gemini Live, в отличие от многих ИИ, после запуска для массового пользователя не будет бесплатным, ожидаемая стоимость — 20 долларов в месяц[8][5].

Перспективы

По заявлению разработчиков, в перспективе Gemini Live заменит уже привычного Google Ассистента[11], который устарел в техническом плане[4].

Интересные факты

  • На презентации разработчики ассистента привели такой пример его использования в быту: допустим, вы забыли, где положили очки, а из-за плохого зрения не можете осмотреть всю комнату. В перспективе достаточно будет взять в руки смартфон и попросить его разыскать пропажу. После этого достаточно будет показать устройству комнату через камеру видеонаблюдения, оно издаст звуковой сигнал как только «увидит» очки и сможет подсчитать, сколько шагов или пасов руками нужно сделать, чтобы найти их и взять в руки. Более того, программе можно будет дать команду следить за очками всегда, в режиме реального времени, и устройство будет отслеживать, где они находятся — на человеке, на столе, в футляре и т. д.[2][12][13][14]
  • В июне 2025 года вслед за экспериментальной моделью OpenAI, модель Gemini DeepThink взяла золото Международной математической олимпиады 2025 (IMO 2025). ИИ от Google показала ровно такой же результат — 5 из 6 решенных задач и 35 баллов из 42 возможных[15].

Примечания