Home
» Wiki
»
Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта
Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта
Зарегистрируйтесь и зарабатывайте 1000$ в день ⋙
Google только что представила Gemini 2.5, которую компания называет «самой умной моделью искусственного интеллекта на сегодняшний день». Первой версией модели стала Gemini 2.5 Pro, которая показала впечатляющие результаты во многих тестах.
Google утверждает, что Gemini 2.5 превосходит лучшие модели от OpenAI, DeepSeek и других гигантов технологий искусственного интеллекта.
Gemini 2.5 Pro уже доступен через Google AI Studio и в приложении Gemini, если вы являетесь продвинутым пользователем Gemini . В ближайшем будущем Gemini 2.5 Pro также будет доступен через Vertex AI.
На данный момент Google не разглашает цены на Gemini 2.5 Pro и другие модели Gemini 2.5.
Все модели, использующие Gemini 2.5, являются «мыслящими моделями», то есть они могут обрабатывать мыслительный процесс перед формированием ответа. Эти модели «рассуждений» являются следующим большим шагом в области ИИ, поскольку они генерируют более сложные и часто более точные ответы.
«Теперь, с Gemini 2.5, мы достигли нового уровня производительности, объединив значительно улучшенную базовую модель с улучшенным постобучением », — заявили в Google.
«В будущем мы встроим эти мыслительные возможности непосредственно во все наши модели, чтобы они могли решать более сложные проблемы и поддерживать агентов с еще лучшим пониманием контекста » .
Как Gemini 2.5 соотносится с моделями OpenAI?
Тест производительности Google Gemini 2.5
Модели Gemini 2.5 Pro от Google превосходят предыдущие топовые модели от OpenAI и DeepSeek.
Результаты тестов Gemini 2.5, представленные Google, весьма впечатляют. Gemini 2.5 Pro Experimental набрал 18,5% на последнем экзамене человечества.
Эта оценка означает, что, по крайней мере на данный момент, Gemini 2.5 Pro Experimental является лучшей моделью по этому показателю. Его результат превосходит OpenAI 03-mini (14%) и DeepSeek R1 (8,6%).
Этот тест считается сложным, хотя это не единственный способ измерить эффективность модели ИИ.
Google также подчеркнула возможности программирования Gemini 2.5 Pro и показатели модели в области математики и естественных наук. Gemini 2.5 Pro в настоящее время лидирует в тестах по математике и естественным наукам, согласно измерениям GPQA и AIME 2025.
Возможно ли программировать в Gemini 2.5?
Основное внимание в Gemini 2.5 уделяется программированию. Google заявляет о «огромном скачке вперед по сравнению с версией 2.0» и намекает на предстоящие дальнейшие улучшения.
Новая модель Google позволяет создавать веб-приложения и приложения с агентским кодом. Демонстрация от Google демонстрирует использование Gemini 2.5 Pro для создания игры из однострочного командного запроса.
4 причины, по которым Gemini 2.5 Pro от Google важен для корпоративного ИИ
Вот четыре ключевых момента, которые следует учитывать корпоративным командам при оценке Gemini 2.5 Pro.
1. Структурированное, прозрачное рассуждение – новый стандарт ясности мысли
Gemini 2.5 Pro выделяется не только своими интеллектуальными возможностями, но и тем, как наглядно эти интеллектуальные возможности демонстрируют свою работу. Пошаговый метод обучения Google создает структурированную цепочку мыслей (CoT), которая не похожа на бессвязную речь или догадки, как то, что мы видели в таких моделях, как DeepSeek . Эти CoT не сводятся к поверхностным обобщениям, как модели OpenAI. Новая модель Gemini представляет идеи в виде пронумерованных шагов с подпунктами и предельно ясной и прозрачной внутренней логикой.
С практической точки зрения это прорыв в надежности и навигационных качествах. Бизнес-пользователи, оценивающие результаты критически важных задач, таких как анализ последствий политики, логика кодирования или обобщение сложных исследований, теперь могут увидеть, как модель пришла к ответу. Это значит, что они могут с большей уверенностью проверять, исправлять или перенаправлять ответы. Это большой шаг вперед по сравнению с ощущением «черного ящика», которое все еще сохраняется во многих результатах больших языковых моделей (LLM) .
Более подробное руководство по работе этой модели можно получить, посмотрев видеообзор, в котором Gemini 2.5 Pro тестируется вживую. Один из рассмотренных примеров: когда Gemini 2.5 Pro спросили об ограничениях больших языковых моделей, он продемонстрировал замечательную осведомленность. В нем описываются общие слабые стороны и классифицируются по таким областям, как «физическая интуиция», «синтез новых концепций», «долгосрочное планирование» и «этические нюансы», что обеспечивает основу, которая помогает пользователям понять, что знает модель, и как подойти к решению проблемы.
Инженерные группы предприятий могут использовать эту возможность для:
Отладка сложных логических цепочек в критически важных приложениях
Лучшее понимание ограничений модели в конкретных областях
Предоставление заинтересованным сторонам более прозрачных решений с использованием ИИ
Улучшить собственное критическое мышление, изучая подход модели
Одним из заметных ограничений является то, что, хотя эта структурированная логика доступна в приложении Gemini и Google AI Studio, в настоящее время она недоступна через API, что является недостатком для разработчиков, желающих интегрировать эту возможность в корпоративные приложения.
2. Реальный претендент на передовые технологии — не только в теории
В настоящее время модель лидирует в рейтинге Chatbot Arena со значительным отрывом — более чем на 35 очков Эло опережает следующую лучшую модель, в частности, обновление OpenAI 4o, выпущенное на следующий день после запуска Gemini 2.5 Pro. И хотя доминирование в бенчмарках часто мимолетно (поскольку новые модели выходят еженедельно), Gemini 2.5 Pro действительно ощущается по-другому.
Он отлично справляется с задачами, требующими глубокого мышления: кодирование, детальное решение проблем, обобщение документов и даже абстрактное планирование. В ходе внутреннего тестирования программа показала особенно хорошие результаты при выполнении ранее сложных тестов, таких как «Последний экзамен человечества» — популярный тест для выявления слабых мест LLM в абстрактных и тонких областях.
Бизнес-группам может быть все равно, какая модель победит в тех или иных академических рейтингах. Но их будет волновать, сможет ли эта модель думать — и покажет ли она вам, как она думает. Испытание на вибрацию очень важно.
Как заметил уважаемый инженер ИИ Натан Ламберт, «У Google снова лучшие модели, потому что они должны были начать весь этот бум ИИ. Большая ошибка исправлена». Бизнес-пользователи должны рассматривать это как попытку Google не просто догнать конкурентов, но и потенциально превзойти их в возможностях, важных для бизнес-приложений.
3. Наконец, шифрование Google оказалось сильным
Традиционно Google отстает от OpenAI и Anthropic с точки зрения поддержки кодирования, ориентированного на разработчиков. Gemini 2.5 Pro меняет ситуацию.
В ходе практического тестирования он продемонстрировал мощные возможности для однократного решения задач программирования, включая создание рабочей игры Tetris, которая запустилась с первой попытки при экспорте в Replit — отладка не потребовалась. Что еще более примечательно, он четко объясняет структуру кода, продуманно маркирует переменные и шаги и представляет свой подход еще до написания первой строки кода.
Эта модель конкурирует с Claude 3.7 Sonnet компании Anthropic, которая считается лидером в области генерации кода и является основной причиной успеха Anthropic на корпоративном рынке. Но Gemini 2.5 предлагает одно важное преимущество: огромное окно контекста токенов — до 1 миллиона. Claude 3.7 Sonnet в настоящее время предлагает только 500 000 токенов.
Это большое контекстное окно открывает новые возможности для рассуждений по всей кодовой базе, чтения онлайн-документации и работы с несколькими взаимозависимыми файлами. Опыт инженера-программиста Саймона Уиллисона демонстрирует это преимущество.
При использовании Gemini 2.5 Pro для внедрения новой функции в нашу кодовую базу модель определила необходимые изменения в 18 различных файлах и завершила весь проект примерно за 45 минут, в среднем менее 3 минут на один измененный файл. Это серьезный инструмент для предприятий, экспериментирующих с агентскими фреймворками или средами разработки на базе искусственного интеллекта.
4. Интеграция нескольких методов с поведением, подобным агенту
В то время как некоторые модели, такие как последняя модель OpenAI 4o, могут похвастаться большей яркостью и привлекательным созданием изображений, Gemini 2.5 Pro, похоже, тихо переосмысливает то, как выглядит обоснованное мультимодальное мышление.
В одном из примеров практический эксперимент Бена Диксона для VentureBeat продемонстрировал способность модели извлекать ключевую информацию из технической статьи об алгоритмах поиска и генерировать соответствующую блок-схему SVG, а затем улучшать эту блок-схему, показывая визуализированную версию с визуальными ошибками. Этот уровень мультимодального мышления позволяет создавать новые рабочие процессы, которые ранее были невозможны при использовании только текстовых моделей.
В другом примере разработчик Сэм Виттевен загрузил простой снимок экрана карты Лас-Вегаса и спросил, какие события Google происходили поблизости 9 апреля. Модель определила местоположение, сделала вывод о намерении пользователя, выполнила поиск в Интернете и выдала точные данные о Google Cloud Next, включая дату, местоположение и ссылку. Все это делается без использования специализированной агентской среды, только с помощью базовой модели и встроенного поиска.
На самом деле эта модель рассуждений на основе мультимодальных входных данных выходит за рамки простого ее рассмотрения. В нем показано, как может выглядеть рабочий процесс компании через 6 месяцев: загрузите документы, диаграммы и панели мониторинга и позвольте модели синтезировать, планировать или предпринимать осмысленные действия на основе конт��нта.