Gemini Live
Gemini Live — голосовой помощник с искусственным интеллектом, представленный компанией Google 14 мая 2024 как главный конкурент GPT-4o. Использует улучшенную мультимодальную модель искусственного интеллекта, чтобы предложить пользователям более естественное общение в режиме реального времени.
Презентация состоялась на конференции «Google I/O 2024»[1][2]. Разработчики представили новую возможность для ИИ-чат-бота Gemini — функцию Gemini Live, которая позволяет пользователям вести «углублённые» голосовые диалоги с Gemini на своих смартфонах. Одна из ключевых особенностей заключается в том, что пользователи могут прерывать Gemini во время его реплик, чтобы задать уточняющие вопросы, и чат-бот будет адаптироваться к речи пользователя в режиме реального времени. Кроме того, Gemini может видеть и реагировать на окружение пользователя, используя фотографии или видео, снятые камерами смартфонов[3][4].
Сроки запуска — конец 2024 года[5].
Общие сведения
| Gemini Live | |
|---|---|
| Тип | виртуальный собеседник, большая языковая модель и ИИ |
| Разработчик | |
| Языки интерфейса | английский |
| Аппаратная платформа | Android |
| Состояние | в разработке |
История
Gemini Live разработали в рамках проекта DeepMind Project Astra. Он предназначен для работы с текстом, аудио и изображениями в реальном времени. Цель проекта — создать универсального агента для повседневного использования[1].
Разработка стартовала в 2023 году. По состоянию на дату презентации устройство ещё находилось в стадии доработки. Официально объявленная дата выхода — сентябрь 2024 года[3][1], после чего Gemini Live будет адаптироваться и совершенствоваться[6].
Описание
Виртуальный ассистент Gemini Live, как заявляют разработчики, является своеобразным соединением платформы компьютерного зрения Google Lens и виртуального помощника Google Assistant, и их дальнейшая эволюция. На первый взгляд Gemini Live не кажется кардинальным обновлением по сравнению с существующими технологиями. Однако Google утверждает, что система использует новые методы генеративного ИИ, чтобы обеспечить превосходный, менее подверженный ошибкам анализ изображений, и сочетает эти методы с улучшенным речевым движком для более последовательного, эмоционально выразительного и реалистичного многооборотного диалога[3][7][8].
Панируется, что ассистент также сможет самостоятельно работать с Gmail-почтой, в т. ч. отвечать на письма при необходимости, согласно установленным ранее задачам и инструкциям. Также Gemini Live будет взаимодействовать и с другими сервисами Google[2].
Демис Хассабис (Demis Hassabis), генеральный директор DeepMind:
«Мы всегда хотели создать универсального агента, который будет полезен в повседневной жизни. Представьте себе агентов, которые могут видеть и слышать то, что мы делаем, лучше понимать контекст, в котором мы находимся, и быстро реагировать в разговоре, делая темп и качество взаимодействия гораздо более естественными».
Для пользователей будет доступен выбор 1 из 10 различных голосов виртуального помощника[9].
Сравнение
Подписка
Перспективы
По заявлению разработчиков, в перспективе Gemini Live заменит уже привычного Google Ассистента[11], который устарел в техническом плане[4].
Интересные факты
- На презентации разработчики ассистента привели такой пример его использования в быту: допустим, вы забыли, где положили очки, а из-за плохого зрения не можете осмотреть всю комнату. В перспективе достаточно будет взять в руки смартфон и попросить его разыскать пропажу. После этого достаточно будет показать устройству комнату через камеру видеонаблюдения, оно издаст звуковой сигнал как только «увидит» очки и сможет подсчитать, сколько шагов или пасов руками нужно сделать, чтобы найти их и взять в руки. Более того, программе можно будет дать команду следить за очками всегда, в режиме реального времени, и устройство будет отслеживать, где они находятся — на человеке, на столе, в футляре и т. д.[2][12][13][14]
- В июне 2025 года вслед за экспериментальной моделью OpenAI, модель Gemini DeepThink взяла золото Международной математической олимпиады 2025 (IMO 2025). ИИ от Google показала ровно такой же результат — 5 из 6 решенных задач и 35 баллов из 42 возможных[15].