Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта

Зарегистрируйтесь и зарабатывайте 1000$ в день ⋙

Google только что представила Gemini 2.5, которую компания называет «самой умной моделью искусственного интеллекта на сегодняшний день». Первой версией модели стала Gemini 2.5 Pro, которая показала впечатляющие результаты во многих тестах.

Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта.

Gemini 2.5 Pro уже доступен через Google AI Studio и в приложении Gemini, если вы являетесь продвинутым пользователем Gemini . В ближайшем будущем Gemini 2.5 Pro также будет доступен через Vertex AI.

На данный момент Google не разглашает цены на Gemini 2.5 Pro и другие модели Gemini 2.5.

Все модели, использующие Gemini 2.5, являются «мыслящими моделями», то есть они могут обрабатывать мыслительный процесс перед формированием ответа. Эти модели «рассуждений» являются следующим большим шагом в области ИИ, поскольку они генерируют более сложные и часто более точные ответы.

«Теперь, с Gemini 2.5, мы достигли нового уровня производительности, объединив значительно улучшенную базовую модель с улучшенным постобучением », — заявили в Google.

«В будущем мы встроим эти мыслительные возможности непосредственно во все наши модели, чтобы они могли решать более сложные проблемы и поддерживать агентов с еще лучшим пониманием контекста » .

Как Gemini 2.5 соотносится с моделями OpenAI?

Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта
Тест производительности Google Gemini 2.5

Модели Gemini 2.5 Pro от Google превосходят предыдущие топовые модели от OpenAI и DeepSeek.

Результаты тестов Gemini 2.5, представленные Google, весьма впечатляют. Gemini 2.5 Pro Experimental набрал 18,5% на последнем экзамене человечества.

Эта оценка означает, что, по крайней мере на данный момент, Gemini 2.5 Pro Experimental является лучшей моделью по этому показателю. Его результат превосходит OpenAI 03-mini (14%) и DeepSeek R1 (8,6%).

Этот тест считается сложным, хотя это не единственный способ измерить эффективность модели ИИ.

Google также подчеркнула возможности программирования Gemini 2.5 Pro и показатели модели в области математики и естественных наук. Gemini 2.5 Pro в настоящее время лидирует в тестах по математике и естественным наукам, согласно измерениям GPQA и AIME 2025.

Возможно ли программировать в Gemini 2.5?

Основное внимание в Gemini 2.5 уделяется программированию. Google заявляет о «огромном скачке вперед по сравнению с версией 2.0» и намекает на предстоящие дальнейшие улучшения.

Новая модель Google позволяет создавать веб-приложения и приложения с агентским кодом. Демонстрация от Google демонстрирует использование Gemini 2.5 Pro для создания игры из однострочного командного запроса.

4 причины, по которым Gemini 2.5 Pro от Google важен для корпоративного ИИ

Вот четыре ключевых момента, которые следует учитывать корпоративным командам при оценке Gemini 2.5 Pro.

1. Структурированное, прозрачное рассуждение – новый стандарт ясности мысли

Gemini 2.5 Pro выделяется не только своими интеллектуальными возможностями, но и тем, как наглядно эти интеллектуальные возможности демонстрируют свою работу. Пошаговый метод обучения Google создает структурированную цепочку мыслей (CoT), которая не похожа на бессвязную речь или догадки, как то, что мы видели в таких моделях, как DeepSeek . Эти CoT не сводятся к поверхностным обобщениям, как модели OpenAI. Новая модель Gemini представляет идеи в виде пронумерованных шагов с подпунктами и предельно ясной и прозрачной внутренней логикой.

С практической точки зрения это прорыв в надежности и навигационных качествах. Бизнес-пользователи, оценивающие результаты критически важных задач, таких как анализ последствий политики, логика кодирования или обобщение сложных исследований, теперь могут увидеть, как модель пришла к ответу. Это значит, что они могут с большей уверенностью проверять, исправлять или перенаправлять ответы. Это большой шаг вперед по сравнению с ощущением «черного ящика», которое все еще сохраняется во многих результатах больших языковых моделей (LLM) .

Более подробное руководство по работе этой модели можно получить, посмотрев видеообзор, в котором Gemini 2.5 Pro тестируется вживую. Один из рассмотренных примеров: когда Gemini 2.5 Pro спросили об ограничениях больших языковых моделей, он продемонстрировал замечательную осведомленность. В нем описываются общие слабые стороны и классифицируются по таким областям, как «физическая интуиция», «синтез новых концепций», «долгосрочное планирование» и «этические нюансы», что обеспечивает основу, которая помогает пользователям понять, что знает модель, и как подойти к решению проблемы.

Инженерные группы предприятий могут использовать эту возможность для:

  • Отладка сложных логических цепочек в критически важных приложениях
  • Лучшее понимание ограничений модели в конкретных областях
  • Предоставление заинтересованным сторонам более прозрачных решений с использованием ИИ
  • Улучшить собственное критическое мышление, изучая подход модели

Одним из заметных ограничений является то, что, хотя эта структурированная логика доступна в приложении Gemini и Google AI Studio, в настоящее время она недоступна через API, что является недостатком для разработчиков, желающих интегрировать эту возможность в корпоративные приложения.

2. Реальный претендент на передовые технологии — не только в теории

В настоящее время модель лидирует в рейтинге Chatbot Arena со значительным отрывом — более чем на 35 очков Эло опережает следующую лучшую модель, в частности, обновление OpenAI 4o, выпущенное на следующий день после запуска Gemini 2.5 Pro. И хотя доминирование в бенчмарках часто мимолетно (поскольку новые модели выходят еженедельно), Gemini 2.5 Pro действительно ощущается по-другому.

Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта

Он отлично справляется с задачами, требующими глубокого мышления: кодирование, детальное решение проблем, обобщение документов и даже абстрактное планирование. В ходе внутреннего тестирования программа показала особенно хорошие результаты при выполнении ранее сложных тестов, таких как «Последний экзамен человечества» — популярный тест для выявления слабых мест LLM в абстрактных и тонких областях.

Бизнес-группам может быть все равно, какая модель победит в тех или иных академических рейтингах. Но их будет волновать, сможет ли эта модель думать — и покажет ли она вам, как она думает. Испытание на вибрацию очень важно.

Как заметил уважаемый инженер ИИ Натан Ламберт, «У Google снова лучшие модели, потому что они должны были начать весь этот бум ИИ. Большая ошибка исправлена». Бизнес-пользователи должны рассматривать это как попытку Google не просто догнать конкурентов, но и потенциально превзойти их в возможностях, важных для бизнес-приложений.

3. Наконец, шифрование Google оказалось сильным

Традиционно Google отстает от OpenAI и Anthropic с точки зрения поддержки кодирования, ориентированного на разработчиков. Gemini 2.5 Pro меняет ситуацию.

В ходе практического тестирования он продемонстрировал мощные возможности для однократного решения задач программирования, включая создание рабочей игры Tetris, которая запустилась с первой попытки при экспорте в Replit — отладка не потребовалась. Что еще более примечательно, он четко объясняет структуру кода, продуманно маркирует переменные и шаги и представляет свой подход еще до написания первой строки кода.

Эта модель конкурирует с Claude 3.7 Sonnet компании Anthropic, которая считается лидером в области генерации кода и является основной причиной успеха Anthropic на корпоративном рынке. Но Gemini 2.5 предлагает одно важное преимущество: огромное окно контекста токенов — до 1 миллиона. Claude 3.7 Sonnet в настоящее время предлагает только 500 000 токенов.

Это большое контекстное окно открывает новые возможности для рассуждений по всей кодовой базе, чтения онлайн-документации и работы с несколькими взаимозависимыми файлами. Опыт инженера-программиста Саймона Уиллисона демонстрирует это преимущество.

При использовании Gemini 2.5 Pro для внедрения новой функции в нашу кодовую базу модель определила необходимые изменения в 18 различных файлах и завершила весь проект примерно за 45 минут, в среднем менее 3 минут на один измененный файл. Это серьезный инструмент для предприятий, экспериментирующих с агентскими фреймворками или средами разработки на базе искусственного интеллекта.

4. Интеграция нескольких методов с поведением, подобным агенту

В то время как некоторые модели, такие как последняя модель OpenAI 4o, могут похвастаться большей яркостью и привлекательным созданием изображений, Gemini 2.5 Pro, похоже, тихо переосмысливает то, как выглядит обоснованное мультимодальное мышление.

В одном из примеров практический эксперимент Бена Диксона для VentureBeat продемонстрировал способность модели извлекать ключевую информацию из технической статьи об алгоритмах поиска и генерировать соответствующую блок-схему SVG, а затем улучшать эту блок-схему, показывая визуализированную версию с визуальными ошибками. Этот уровень мультимодального мышления позволяет создавать новые рабочие процессы, которые ранее были невозможны при использовании только текстовых моделей.

В другом примере разработчик Сэм Виттевен загрузил простой снимок экрана карты Лас-Вегаса и спросил, какие события Google происходили поблизости 9 апреля. Модель определила местоположение, сделала вывод о намерении пользователя, выполнила поиск в Интернете и выдала точные данные о Google Cloud Next, включая дату, местоположение и ссылку. Все это делается без использования специализированной агентской среды, только с помощью базовой модели и встроенного поиска.

На самом деле эта модель рассуждений на основе мультимодальных входных данных выходит за рамки простого ее рассмотрения. В нем показано, как может выглядеть рабочий процесс компании через 6 месяцев: загрузите документы, диаграммы и панели мониторинга и позвольте модели синтезировать, планировать или предпринимать осмысленные действия на основе конт��нта.

Sign up and earn $1000 a day ⋙

Leave a Comment

Google запускает Career Dreamer — новейший инструмент на основе искусственного интеллекта, помогающий выбрать идеальную карьеру

Google запускает Career Dreamer — новейший инструмент на основе искусственного интеллекта, помогающий выбрать идеальную карьеру

Независимо от того, делаете ли вы первые шаги на рынке труда или переходите в новую отрасль, экспериментальный сервис Career Dreamer от Google поможет вам найти подходящие вакансии.

Google разрабатывает инструмент для покупок на основе искусственного интеллекта, который позволяет пользователям примерять платья и рубашки дома

Google разрабатывает инструмент для покупок на основе искусственного интеллекта, который позволяет пользователям примерять платья и рубашки дома

В прошлом году Google представила в Поиске помощника по покупкам на базе искусственного интеллекта, который позволяет пользователям получить визуальное представление о том, как тот или иной предмет одежды будет смотреться на определенном типе фигуры.

Google разрабатывает алгоритм ИИ, который может диагностировать кожные заболевания и туберкулез

Google разрабатывает алгоритм ИИ, который может диагностировать кожные заболевания и туберкулез

Компания Google проявляет все больший интерес к области применения искусственного интеллекта в медицине.

Google подтверждает наличие проблемы с Chromecast и Chromecast Audio второго поколения

Google подтверждает наличие проблемы с Chromecast и Chromecast Audio второго поколения

После нескольких дней замешательства Google официально подтвердила наличие проблемы как с Chromecast второго поколения, так и с Chromecast Audio.

Google случайно опубликовал документацию о том, как работает поиск

Google случайно опубликовал документацию о том, как работает поиск

В понедельник произошла утечка внутренних документов, описывающих факторы, которые Google Search учитывает при ранжировании и отображении результатов поиска.

Как включить и использовать Google Assistant в Chrome Android

Как включить и использовать Google Assistant в Chrome Android

Google постепенно отказывается от старой технологии распознавания голоса и заменяет ее виртуальным помощником Assistant.

Samsung запускает технологию звука 3D Eclipsa Audio, которая напрямую конкурирует с Dolby Atmos

Samsung запускает технологию звука 3D Eclipsa Audio, которая напрямую конкурирует с Dolby Atmos

Компания Samsung Electronics объявила о планах по интеграции Eclipsa Audio, совершенно новой технологии 3D-аудио, разработанной в партнерстве с Google, в свою линейку телевизоров и саундбаров 2025 года.

Google анонсирует 6 новых функций для телефонов Android

Google анонсирует 6 новых функций для телефонов Android

Сегодня компания Google анонсировала шесть новых функций, которые появятся на смартфонах Android.

Что такое панель управления конфиденциальностью на Android 12? Почему это прорыв в области конфиденциальности?

Что такое панель управления конфиденциальностью на Android 12? Почему это прорыв в области конфиденциальности?

Безопасность и конфиденциальность становятся все более серьезными проблемами для пользователей смартфонов в целом.

Поиск ChatGPT или Google лучше?

Поиск ChatGPT или Google лучше?

Многие люди уже долгое время пытаются понять, смогут ли они на самом деле заменить Google расширением ChatGPT Search для Chrome.

Google официально удаляет расширения Manifest V2 в Chrome

Google официально удаляет расширения Manifest V2 в Chrome

Прошло много времени, и этот день наконец настал. Пользователи сообщают, что их старое расширение Manifest v2 удаляется из Chrome. И что теперь?

Google выпускает декабрьское обновление Pixel, большая часть которого связана с Gemini

Google выпускает декабрьское обновление Pixel, большая часть которого связана с Gemini

В последнем обновлении представлены улучшения, связанные с камерой, аудио- и визуальными инструментами, а также, что самое важное, Gemini — помощником Google на базе искусственного интеллекта.

9 полезных приложений Google, которые не предустановлены на телефонах Android

9 полезных приложений Google, которые не предустановлены на телефонах Android

Если вам нравятся сервисы Google, эти малоизвестные приложения могут добавить удивительную ценность вашему устройству.

Google разделяется с Qualcomm, выбирая 5G-модем MediaTek для серии Pixel 10

Google разделяется с Qualcomm, выбирая 5G-модем MediaTek для серии Pixel 10

Компания Google решила прекратить свое многолетнее партнерство с Qualcomm и вместо этого использовать в серии Pixel 10 модем T900 от MediaTek.

Социальному поиску Perplexity нужны эти 3 функции, чтобы конкурировать с Google

Социальному поиску Perplexity нужны эти 3 функции, чтобы конкурировать с Google

Стандартный поисковик Perplexity великолепен, но его функция социального поиска оставляет желать лучшего. Прежде чем Perplexity сможет даже подумать о конкуренции с Google в этой области, ей необходимы эти новые функции.

Что такое 1314?

Что такое 1314?

1314 — число, которое молодые люди часто используют в качестве любовного кода. Однако не все знают, что такое 1314 и что оно означает?

Как защитить свое психическое и физическое здоровье в токсичной среде

Как защитить свое психическое и физическое здоровье в токсичной среде

Справляться с токсичными ситуациями может быть невероятно сложно. Вот несколько советов, которые помогут вам тактично справляться с токсичной средой и сохранять душевное спокойствие.

Как музыка стимулирует мозг

Как музыка стимулирует мозг

Большинство людей знают, что музыка — это не только развлечение, но и нечто гораздо большее. Вот несколько способов, которыми музыка стимулирует развитие нашего мозга.

Наиболее часто встречающиеся дефицитные питательные вещества в рационе

Наиболее часто встречающиеся дефицитные питательные вещества в рационе

Диета очень важна для нашего здоровья. Однако в большинстве наших рационов питания зачастую не хватает этих шести важных питательных веществ.

Как использовать приложение CK Club от Circle K, чтобы получать выгодные предложения

Как использовать приложение CK Club от Circle K, чтобы получать выгодные предложения

Чтобы быстрее получать рекламную информацию от Circle K, вам следует установить приложение CK Club. Приложение сохраняет платежи при совершении покупок или оплате в Circle K, а также количество собранных марок.

Instagram разрешит ролики длиной до 3 минут

Instagram разрешит ролики длиной до 3 минут

Instagram только что объявил, что позволит пользователям публиковать видеоролики Reels продолжительностью до 3 минут, что вдвое больше предыдущего лимита в 90 секунд.

Как просмотреть информацию о процессоре Chromebook

Как просмотреть информацию о процессоре Chromebook

В этой статье вы узнаете, как просмотреть информацию о процессоре и проверить скорость процессора непосредственно на Chromebook.

8 крутых вещей, которые можно сделать со старым планшетом Android

8 крутых вещей, которые можно сделать со старым планшетом Android

Если вы не хотите продавать или отдавать свой старый планшет, вы можете использовать его 5 способами: как высококачественную фоторамку, музыкальный проигрыватель, устройство для чтения электронных книг и журналов, помощника по дому и как дополнительный экран.

Как быстро сделать ногти красивыми

Как быстро сделать ногти красивыми

Вы хотите быстро иметь красивые, блестящие и здоровые ногти. Эти простые советы по созданию красивых ногтей будут вам полезны.

Секреты цветового вдохновения, известные только дизайнерам

Секреты цветового вдохновения, известные только дизайнерам

В этой статье будут перечислены советы по работе с цветом, которыми поделились ведущие дизайнеры из сообщества Creative Market, чтобы вы могли каждый раз получать идеальное сочетание цветов.

Все, что вам нужно, чтобы заменить ваш ноутбук телефоном

Все, что вам нужно, чтобы заменить ваш ноутбук телефоном

Можно ли на самом деле заменить ноутбук телефоном? Да, но вам понадобятся соответствующие аксессуары, чтобы превратить ваш телефон в ноутбук.

ChatGPT скоро сможет видеть все, что происходит на вашем экране

ChatGPT скоро сможет видеть все, что происходит на вашем экране

Важный момент в полном видео с мероприятия заключается в том, что была продемонстрирована будущая функция приложения ChatGPT, но никаких реальных подробностей раскрыто не было. Это способность ChatGPT видеть все, что происходит на экране устройства пользователя.

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

ИИ учится обманывать людей, несмотря на то, что его учили быть честным

Согласно новому исследованию, многие ведущие ИИ, несмотря на то, что их обучают быть честными, в ходе обучения учатся обманывать и систематически внушают пользователям ложные убеждения.

Как изменить вопросы в ChatGPT

Как изменить вопросы в ChatGPT

В ChatGPT теперь есть опция изменения вопроса, так что пользователи могут редактировать вопрос или контент, которым они обмениваются с ChatGPT.

Как распознать поддельные QR-коды и защитить свои данные

Как распознать поддельные QR-коды и защитить свои данные

QR-коды кажутся довольно безобидными, пока вы не отсканируете плохой QR-код и не получите что-то неприятное в своей системе. Если вы хотите защитить свой телефон и данные, есть несколько способов распознать поддельные QR-коды.