Google DeepMind добивается устойчивого прогресса в области искусственного интеллекта, регулярно выпуская высоко оцененные обновления для Gemini, Imagen, Veo, Gemma и AlphaFold. Сегодня команда Google по искусственному интеллекту продолжает оставаться в центре внимания, официально объявив о своем выходе на рынок робототехники, выпустив две новые модели на базе Gemini 2.0: Gemini Robotics и Gemini Robotics-ER.
Gemini Robotics: усовершенствованная модель «зрение-язык-действие»
Gemini Robotics — это усовершенствованная модель «зрение-язык-действие» (VLA), разработанная на основе Gemini 2.0 с добавлением физических действий в качестве нового метода вывода для управления роботом. Google утверждает, что новая модель способна понимать ситуации, с которыми она даже не сталкивалась во время обучения.
По сравнению с другими ведущими моделями VLA, Gemini Robotics демонстрирует вдвое лучшие результаты по комплексному набору обобщенных тестов. Поскольку он создан на основе модели Gemini 2.0, он способен понимать множество различных типов естественных языков, а значит, может точнее понимать человеческие команды.
Что касается ловкости, Google утверждает, что Gemini Robotics может выполнять сложные многоэтапные задачи, требующие точных манипуляций. Например, эта модель может складывать оригами или упаковывать закуски в пакеты Ziploc.
Gemini Robotics-ER: визуально-языковая модель, ориентированная на пространственное мышление
Gemini Robotics-ER — это усовершенствованная визуально-лингвистическая модель, ориентированная на пространственное мышление, позволяющая робототехникам интегрироваться с существующими низкоуровневыми контроллерами. Используя эту модель, робототехник будет иметь все этапы управления роботом одновременно, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода.
Будущее робототехники Gemini
Google сотрудничает с Apptronik с целью создания человекоподобных роботов на основе моделей Gemini 2.0. Google также сотрудничает с рядом надежных партнеров по тестированию, включая Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools, чтобы направлять будущую разработку Gemini Robotics-ER.
Позволяя роботам понимать и выполнять сложные задачи с большей точностью и адаптивностью, Google DeepMind прокладывает путь к будущему, в котором роботы смогут легко интегрироваться во многие аспекты нашей жизни.