Gemini Live

Gemini Live
Gemini Live
Тип	виртуальный собеседник, большая языковая модель и ИИ
Разработчик	Google
Языки интерфейса	английский
Аппаратная платформа	Android
Состояние	в разработке

Gemini Live
Gemini Live
Тип	виртуальный собеседник, большая языковая модель и ИИ
Разработчик	Google
Языки интерфейса	английский
Аппаратная платформа	Android
Состояние	в разработке

Gemini Live — голосовой помощник с искусственным интеллектом, представленный компанией Google 14 мая 2024 как главный конкурент GPT-4o. Использует улучшенную мультимодальную модель искусственного интеллекта, чтобы предложить пользователям более естественное общение в режиме реального времени.

Презентация состоялась на конференции «Google I/O 2024»^[1]^[2]. Разработчики представили новую возможность для ИИ-чат-бота Gemini — функцию Gemini Live, которая позволяет пользователям вести «углублённые» голосовые диалоги с Gemini на своих смартфонах. Одна из ключевых особенностей заключается в том, что пользователи могут прерывать Gemini во время его реплик, чтобы задать уточняющие вопросы, и чат-бот будет адаптироваться к речи пользователя в режиме реального времени. Кроме того, Gemini может видеть и реагировать на окружение пользователя, используя фотографии или видео, снятые камерами смартфонов^[3]^[4].

Сроки запуска — конец 2024 года^[5].

Gemini Live разработали в рамках проекта DeepMind Project Astra. Он предназначен для работы с текстом, аудио и изображениями в реальном времени. Цель проекта — создать универсального агента для повседневного использования^[1].

Разработка стартовала в 2023 году. По состоянию на дату презентации устройство ещё находилось в стадии доработки. Официально объявленная дата выхода — сентябрь 2024 года^[3]^[1], после чего Gemini Live будет адаптироваться и совершенствоваться^[6].

Виртуальный ассистент Gemini Live, как заявляют разработчики, является своеобразным соединением платформы компьютерного зрения Google Lens и виртуального помощника Google Assistant, и их дальнейшая эволюция. На первый взгляд Gemini Live не кажется кардинальным обновлением по сравнению с существующими технологиями. Однако Google утверждает, что система использует новые методы генеративного ИИ, чтобы обеспечить превосходный, менее подверженный ошибкам анализ изображений, и сочетает эти методы с улучшенным речевым движком для более последовательного, эмоционально выразительного и реалистичного многооборотного диалога^[3]^[7]^[8].

Панируется, что ассистент также сможет самостоятельно работать с Gmail-почтой, в т. ч. отвечать на письма при необходимости, согласно установленным ранее задачам и инструкциям. Также Gemini Live будет взаимодействовать и с другими сервисами Google^[2].

Демис Хассабис (Demis Hassabis), генеральный директор DeepMind:

«Мы всегда хотели создать универсального агента, который будет полезен в повседневной жизни. Представьте себе агентов, которые могут видеть и слышать то, что мы делаем, лучше понимать контекст, в котором мы находимся, и быстро реагировать в разговоре, делая темп и качество взаимодействия гораздо более естественными».

Для пользователей будет доступен выбор 1 из 10 различных голосов виртуального помощника^[9].

Эксперты сравнивают Gemini Live с представленной ранее GPT-4o от OpenAI^[10]: ИИ-модель оптимизирована для обработки запросов пользователей практически без задержек, а общение максимально приближено к естественной диалоговой форме^[4]^[9].

Google объявила, что Gemini Live, в отличие от многих ИИ, после запуска для массового пользователя не будет бесплатным, ожидаемая стоимость — 20 долларов в месяц^[8]^[5].

По заявлению разработчиков, в перспективе Gemini Live заменит уже привычного Google Ассистента^[11], который устарел в техническом плане^[4].

На презентации разработчики ассистента привели такой пример его использования в быту: допустим, вы забыли, где положили очки, а из-за плохого зрения не можете осмотреть всю комнату. В перспективе достаточно будет взять в руки смартфон и попросить его разыскать пропажу. После этого достаточно будет показать устройству комнату через камеру видеонаблюдения, оно издаст звуковой сигнал как только «увидит» очки и сможет подсчитать, сколько шагов или пасов руками нужно сделать, чтобы найти их и взять в руки. Более того, программе можно будет дать команду следить за очками всегда, в режиме реального времени, и устройство будет отслеживать, где они находятся — на человеке, на столе, в футляре и т. д.^[2]^[12]^[13]^[14]
В июне 2025 года вслед за экспериментальной моделью OpenAI, модель Gemini DeepThink взяла золото Международной математической олимпиады 2025 (IMO 2025). ИИ от Google показала ровно такой же результат — 5 из 6 решенных задач и 35 баллов из 42 возможных^[15].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Gemini Live

История

Описание

Сравнение

Подписка

Перспективы

Интересные факты

См. также

Примечания

Категории