Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта

Зарегистрируйтесь и зарабатывайте 1000$ в день ⋙

Google только что представила Gemini 2.5, которую компания называет «самой умной моделью искусственного интеллекта на сегодняшний день». Первой версией модели стала Gemini 2.5 Pro, которая показала впечатляющие результаты во многих тестах.

Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта.

Gemini 2.5 Pro уже доступен через Google AI Studio и в приложении Gemini, если вы являетесь продвинутым пользователем Gemini . В ближайшем будущем Gemini 2.5 Pro также будет доступен через Vertex AI.

На данный момент Google не разглашает цены на Gemini 2.5 Pro и другие модели Gemini 2.5.

Все модели, использующие Gemini 2.5, являются «мыслящими моделями», то есть они могут обрабатывать мыслительный процесс перед формированием ответа. Эти модели «рассуждений» являются следующим большим шагом в области ИИ, поскольку они генерируют более сложные и часто более точные ответы.

«Теперь, с Gemini 2.5, мы достигли нового уровня производительности, объединив значительно улучшенную базовую модель с улучшенным постобучением », — заявили в Google.

«В будущем мы встроим эти мыслительные возможности непосредственно во все наши модели, чтобы они могли решать более сложные проблемы и поддерживать агентов с еще лучшим пониманием контекста » .

Как Gemini 2.5 соотносится с моделями OpenAI?

Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта
Тест производительности Google Gemini 2.5

Модели Gemini 2.5 Pro от Google превосходят предыдущие топовые модели от OpenAI и DeepSeek.

Результаты тестов Gemini 2.5, представленные Google, весьма впечатляют. Gemini 2.5 Pro Experimental набрал 18,5% на последнем экзамене человечества.

Эта оценка означает, что, по крайней мере на данный момент, Gemini 2.5 Pro Experimental является лучшей моделью по этому показателю. Его результат превосходит OpenAI 03-mini (14%) и DeepSeek R1 (8,6%).

Этот тест считается сложным, хотя это не единственный способ измерить эффективность модели ИИ.

Google также подчеркнула возможности программирования Gemini 2.5 Pro и показатели модели в области математики и естественных наук. Gemini 2.5 Pro в настоящее время лидирует в тестах по математике и естественным наукам, согласно измерениям GPQA и AIME 2025.

Возможно ли программировать в Gemini 2.5?

Основное внимание в Gemini 2.5 уделяется программированию. Google заявляет о «огромном скачке вперед по сравнению с версией 2.0» и намекает на предстоящие дальнейшие улучшения.

Новая модель Google позволяет создавать веб-приложения и приложения с агентским кодом. Демонстрация от Google демонстрирует использование Gemini 2.5 Pro для создания игры из однострочного командного запроса.

4 причины, по которым Gemini 2.5 Pro от Google важен для корпоративного ИИ

Вот четыре ключевых момента, которые следует учитывать корпоративным командам при оценке Gemini 2.5 Pro.

1. Структурированное, прозрачное рассуждение – новый стандарт ясности мысли

Gemini 2.5 Pro выделяется не только своими интеллектуальными возможностями, но и тем, как наглядно эти интеллектуальные возможности демонстрируют свою работу. Пошаговый метод обучения Google создает структурированную цепочку мыслей (CoT), которая не похожа на бессвязную речь или догадки, как то, что мы видели в таких моделях, как DeepSeek . Эти CoT не сводятся к поверхностным обобщениям, как модели OpenAI. Новая модель Gemini представляет идеи в виде пронумерованных шагов с подпунктами и предельно ясной и прозрачной внутренней логикой.

С практической точки зрения это прорыв в надежности и навигационных качествах. Бизнес-пользователи, оценивающие результаты критически важных задач, таких как анализ последствий политики, логика кодирования или обобщение сложных исследований, теперь могут увидеть, как модель пришла к ответу. Это значит, что они могут с большей уверенностью проверять, исправлять или перенаправлять ответы. Это большой шаг вперед по сравнению с ощущением «черного ящика», которое все еще сохраняется во многих результатах больших языковых моделей (LLM) .

Более подробное руководство по работе этой модели можно получить, посмотрев видеообзор, в котором Gemini 2.5 Pro тестируется вживую. Один из рассмотренных примеров: когда Gemini 2.5 Pro спросили об ограничениях больших языковых моделей, он продемонстрировал замечательную осведомленность. В нем описываются общие слабые стороны и классифицируются по таким областям, как «физическая интуиция», «синтез новых концепций», «долгосрочное планирование» и «этические нюансы», что обеспечивает основу, которая помогает пользователям понять, что знает модель, и как подойти к решению проблемы.

Инженерные группы предприятий могут использовать эту возможность для:

  • Отладка сложных логических цепочек в критически важных приложениях
  • Лучшее понимание ограничений модели в конкретных областях
  • Предоставление заинтересованным сторонам более прозрачных решений с использованием ИИ
  • Улучшить собственное критическое мышление, изучая подход модели

Одним из заметных ограничений является то, что, хотя эта структурированная логика доступна в приложении Gemini и Google AI Studio, в настоящее время она недоступна через API, что является недостатком для разработчиков, желающих интегрировать эту возможность в корпоративные приложения.

2. Реальный претендент на передовые технологии — не только в теории

В настоящее время модель лидирует в рейтинге Chatbot Arena со значительным отрывом — более чем на 35 очков Эло опережает следующую лучшую модель, в частности, обновление OpenAI 4o, выпущенное на следующий день после запуска Gemini 2.5 Pro. И хотя доминирование в бенчмарках часто мимолетно (поскольку новые модели выходят еженедельно), Gemini 2.5 Pro действительно ощущается по-другому.

Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта

Он отлично справляется с задачами, требующими глубокого мышления: кодирование, детальное решение проблем, обобщение документов и даже абстрактное планирование. В ходе внутреннего тестирования программа показала особенно хорошие результаты при выполнении ранее сложных тестов, таких как «Последний экзамен человечества» — популярный тест для выявления слабых мест LLM в абстрактных и тонких областях.

Бизнес-группам может быть все равно, какая модель победит в тех или иных академических рейтингах. Но их будет волновать, сможет ли эта модель думать — и покажет ли она вам, как она думает. Испытание на вибрацию очень важно.

Как заметил уважаемый инженер ИИ Натан Ламберт, «У Google снова лучшие модели, потому что они должны были начать весь этот бум ИИ. Большая ошибка исправлена». Бизнес-пользователи должны рассматривать это как попытку Google не просто догнать конкурентов, но и потенциально превзойти их в возможностях, важных для бизнес-приложений.

3. Наконец, шифрование Google оказалось сильным

Традиционно Google отстает от OpenAI и Anthropic с точки зрения поддержки кодирования, ориентированного на разработчиков. Gemini 2.5 Pro меняет ситуацию.

В ходе практического тестирования он продемонстрировал мощные возможности для однократного решения задач программирования, включая создание рабочей игры Tetris, которая запустилась с первой попытки при экспорте в Replit — отладка не потребовалась. Что еще более примечательно, он четко объясняет структуру кода, продуманно маркирует переменные и шаги и представляет свой подход еще до написания первой строки кода.

Эта модель конкурирует с Claude 3.7 Sonnet компании Anthropic, которая считается лидером в области генерации кода и является основной причиной успеха Anthropic на корпоративном рынке. Но Gemini 2.5 предлагает одно важное преимущество: огромное окно контекста токенов — до 1 миллиона. Claude 3.7 Sonnet в настоящее время предлагает только 500 000 токенов.

Это большое контекстное окно открывает новые возможности для рассуждений по всей кодовой базе, чтения онлайн-документации и работы с несколькими взаимозависимыми файлами. Опыт инженера-программиста Саймона Уиллисона демонстрирует это преимущество.

При использовании Gemini 2.5 Pro для внедрения новой функции в нашу кодовую базу модель определила необходимые изменения в 18 различных файлах и завершила весь проект примерно за 45 минут, в среднем менее 3 минут на один измененный файл. Это серьезный инструмент для предприятий, экспериментирующих с агентскими фреймворками или средами разработки на базе искусственного интеллекта.

4. Интеграция нескольких методов с поведением, подобным агенту

В то время как некоторые модели, такие как последняя модель OpenAI 4o, могут похвастаться большей яркостью и привлекательным созданием изображений, Gemini 2.5 Pro, похоже, тихо переосмысливает то, как выглядит обоснованное мультимодальное мышление.

В одном из примеров практический эксперимент Бена Диксона для VentureBeat продемонстрировал способность модели извлекать ключевую информацию из технической статьи об алгоритмах поиска и генерировать соответствующую блок-схему SVG, а затем улучшать эту блок-схему, показывая визуализированную версию с визуальными ошибками. Этот уровень мультимодального мышления позволяет создавать новые рабочие процессы, которые ранее были невозможны при использовании только текстовых моделей.

В другом примере разработчик Сэм Виттевен загрузил простой снимок экрана карты Лас-Вегаса и спросил, какие события Google происходили поблизости 9 апреля. Модель определила местоположение, сделала вывод о намерении пользователя, выполнила поиск в Интернете и выдала точные данные о Google Cloud Next, включая дату, местоположение и ссылку. Все это делается без использования специализированной агентской среды, только с помощью базовой модели и встроенного поиска.

На самом деле эта модель рассуждений на основе мультимодальных входных данных выходит за рамки простого ее рассмотрения. В нем показано, как может выглядеть рабочий процесс компании через 6 месяцев: загрузите документы, диаграммы и панели мониторинга и позвольте модели синтезировать, планировать или предпринимать осмысленные действия на основе конт��нта.

Sign up and earn $1000 a day ⋙

Leave a Comment

Gmail добавляет синюю галочку для проверки «надежных» отправителей

Gmail добавляет синюю галочку для проверки «надежных» отправителей

В течение длительного времени, с развитием и популярностью социальных сетей, «синяя галочка» постепенно стала одним из самых влиятельных персонажей в мире Интернета.

Chromecast официально мертв

Chromecast официально мертв

Линейка Chromecast от Google уже давно пользуется популярностью, если вы хотите заменить свой Smart TV или превратить любой телевизор в Smart TV.

Google добавляет функцию автоматического открытия приложений после установки в Play Store

Google добавляет функцию автоматического открытия приложений после установки в Play Store

Google добавляет в Play Store небольшую, но долгожданную новую функцию.

Google анонсирует Android XR — новую операционную платформу для очков дополненной и виртуальной реальности

Google анонсирует Android XR — новую операционную платформу для очков дополненной и виртуальной реальности

После многих лет забвения компания Google наконец решила переориентировать свои инвестиции на устройства расширенной реальности (XR), такие как гарнитуры и очки.

5 причин попробовать Google Gemini

5 причин попробовать Google Gemini

Хотя искусственный интеллект Gemini от Google не так широко обсуждается, как некоторые его конкуренты, у него есть много преимуществ — и вот пять причин, по которым Gemini заслуживает вашего внимания.

Какой производитель смартфонов предлагает лучшие обновления Android?

Какой производитель смартфонов предлагает лучшие обновления Android?

Производителей Android-устройств много, но не все из них уделяют внимание обновлениям программного обеспечения. Хотя за последнее десятилетие ситуация улучшилась, не все производители смартфонов обеспечивают качественную поддержку программного обеспечения.

Google Gemini отвечает некоторым пользователям странными, повторяющимися бессмысленными словами

Google Gemini отвечает некоторым пользователям странными, повторяющимися бессмысленными словами

Недавно некоторые пользователи заметили, что Google Gemini в некоторых ответах выдает повторяющийся текст, странные символы и полную ерунду.

Google удаляет Gemini Access из приложения Google для iPhone

Google удаляет Gemini Access из приложения Google для iPhone

Приложение Google для iPhone вскоре станет немного менее полезным, поскольку Google недавно удалила из этого приложения доступ к Gemini AI.

Что произойдет, если вы потеряете свой аккаунт Google?

Что произойдет, если вы потеряете свой аккаунт Google?

Потеря доступа к аккаунту Google может иметь серьезные последствия, выходящие за рамки возможности отправлять и получать электронную почту.

Google запускает функцию создания видео с помощью искусственного интеллекта на Gemini

Google запускает функцию создания видео с помощью искусственного интеллекта на Gemini

Компания Google только что объявила, что теперь пользователи могут создавать видеоролики с использованием искусственного интеллекта с помощью чат-бота Gemini и недавно запущенного экспериментального инструмента Whisk.

Google запускает Career Dreamer — новейший инструмент на основе искусственного интеллекта, помогающий выбрать идеальную карьеру

Google запускает Career Dreamer — новейший инструмент на основе искусственного интеллекта, помогающий выбрать идеальную карьеру

Независимо от того, делаете ли вы первые шаги на рынке труда или переходите в новую отрасль, экспериментальный сервис Career Dreamer от Google поможет вам найти подходящие вакансии.

Google разрабатывает инструмент для покупок на основе искусственного интеллекта, который позволяет пользователям примерять платья и рубашки дома

Google разрабатывает инструмент для покупок на основе искусственного интеллекта, который позволяет пользователям примерять платья и рубашки дома

В прошлом году Google представила в Поиске помощника по покупкам на базе искусственного интеллекта, который позволяет пользователям получить визуальное представление о том, как тот или иной предмет одежды будет смотреться на определенном типе фигуры.

Google разрабатывает алгоритм ИИ, который может диагностировать кожные заболевания и туберкулез

Google разрабатывает алгоритм ИИ, который может диагностировать кожные заболевания и туберкулез

Компания Google проявляет все больший интерес к области применения искусственного интеллекта в медицине.

Google подтверждает наличие проблемы с Chromecast и Chromecast Audio второго поколения

Google подтверждает наличие проблемы с Chromecast и Chromecast Audio второго поколения

После нескольких дней замешательства Google официально подтвердила наличие проблемы как с Chromecast второго поколения, так и с Chromecast Audio.

Google случайно опубликовал документацию о том, как работает поиск

Google случайно опубликовал документацию о том, как работает поиск

В понедельник произошла утечка внутренних документов, описывающих факторы, которые Google Search учитывает при ранжировании и отображении результатов поиска.

Разница между обычным телевизором и Smart TV

Разница между обычным телевизором и Smart TV

Умные телевизоры действительно покорили мир. Благодаря множеству замечательных функций и возможности подключения к Интернету технологии изменили то, как мы смотрим телевизор.

Почему в морозильной камере нет подсветки, а в холодильнике есть?

Почему в морозильной камере нет подсветки, а в холодильнике есть?

Холодильники — привычные бытовые приборы. Холодильники обычно имеют 2 отделения: холодильное отделение просторное и имеет подсветку, которая автоматически включается каждый раз, когда пользователь ее открывает, а морозильное отделение узкое и не имеет подсветки.

2 способа устранения перегрузки сети, которая замедляет Wi-Fi

2 способа устранения перегрузки сети, которая замедляет Wi-Fi

На сети Wi-Fi влияют многие факторы, помимо маршрутизаторов, пропускной способности и помех, но есть несколько разумных способов улучшить работу вашей сети.

Как перейти с iOS 17 на iOS 16 без потери данных с помощью Tenorshare Reiboot

Как перейти с iOS 17 на iOS 16 без потери данных с помощью Tenorshare Reiboot

Если вы хотите вернуться к стабильной версии iOS 16 на своем телефоне, вот базовое руководство по удалению iOS 17 и понижению версии с iOS 17 до 16.

Что происходит с организмом, если вы едите йогурт каждый день?

Что происходит с организмом, если вы едите йогурт каждый день?

Йогурт — замечательная еда. Полезно ли есть йогурт каждый день? Как изменится ваше тело, если вы будете есть йогурт каждый день? Давайте узнаем вместе!

Какой вид риса лучше всего подходит для здоровья?

Какой вид риса лучше всего подходит для здоровья?

В этой статье рассматриваются наиболее питательные виды риса и способы максимально увеличить пользу для здоровья любого выбранного вами вида риса.

Как просыпаться вовремя утром

Как просыпаться вовремя утром

Установление режима сна и отхода ко сну, смена будильника и корректировка рациона питания — вот некоторые из мер, которые помогут вам лучше спать и вовремя просыпаться по утрам.

Советы по игре Rent Please! Симулятор арендодателя для новичков

Советы по игре Rent Please! Симулятор арендодателя для новичков

Арендуйте, пожалуйста! Landlord Sim — мобильная игра-симулятор для iOS и Android. Вы будете играть за владельца жилого комплекса и начнете сдавать квартиры в аренду, чтобы улучшить интерьер своих апартаментов и подготовить их к приему арендаторов.

Последние коды защиты башни в ванной и как вводить коды

Последние коды защиты башни в ванной и как вводить коды

Получите игровой код Bathroom Tower Defense Roblox и обменяйте его на потрясающие награды. Они помогут вам улучшить или разблокировать башни с более высоким уроном.

Конструкция, обозначения и принципы работы трансформаторов

Конструкция, обозначения и принципы работы трансформаторов

Давайте максимально подробно изучим конструкцию, обозначения и принципы работы трансформаторов.

4 способа, которыми ИИ делает умные телевизоры лучше

4 способа, которыми ИИ делает умные телевизоры лучше

От лучшего качества изображения и звука до голосового управления и многого другого — эти функции на базе искусственного интеллекта делают смарт-телевизоры намного лучше!

Почему ChatGPT лучше DeepSeek

Почему ChatGPT лучше DeepSeek

Поначалу люди возлагали большие надежды на DeepSeek. Как ИИ-чат-бот, позиционируемый как серьезный конкурент ChatGPT, он обещает интеллектуальные возможности и возможности чата.

Встречайте Fireflies.ai: бесплатный секретарь на базе искусственного интеллекта, который сэкономит вам часы работы

Встречайте Fireflies.ai: бесплатный секретарь на базе искусственного интеллекта, который сэкономит вам часы работы

Легко упустить важные детали, записывая другие важные вещи, а попытки делать заметки во время общения могут отвлекать. Решение — Fireflies.ai.

Как вырастить Аксолотля Майнкрафт, приручить Саламандру Майнкрафт

Как вырастить Аксолотля Майнкрафт, приручить Саламандру Майнкрафт

Аксолот в Minecraft станет отличным помощником для игроков при действиях под водой, если они знают, как им пользоваться.

A Quiet Place: The Road Ahead Конфигурация игры для ПК

A Quiet Place: The Road Ahead Конфигурация игры для ПК

Конфигурация A Quiet Place: The Road Ahead имеет довольно высокий рейтинг, поэтому вам нужно будет рассмотреть ее перед принятием решения о загрузке.