Alibaba только что официально анонсировала свою новейшую модель рассуждений, и, похоже, у DeepSeek и OpenAI есть некоторые причины для беспокойства — если вся «шумиха» Alibaba правдива. Эта модель имеет открытый исходный код, поэтому каждый может получить к ней доступ и опробовать ее бесплатно.
Новая модель искусственного интеллекта Alibaba, получившая название QwQ-32b (Quan-with-Questions), использует значительно меньше параметров, чем почти все основные языковые модели сегодня, а значит, ей требуется меньше ресурсов. Alibaba утверждает, что QwQ-32b работает на том же уровне, что и DeepSeek или o1-mini от OpenAI.
Модель большого языка (LLM) DeepSeek-R1 произвела фурор, когда была запущена в начале февраля, бросив вызов золотому стандарту, установленному ChatGPT, но при этом имея гораздо более низкие эксплуатационные расходы. Похоже, что с QwQ-32b Alibaba хочет еще больше расширить этот предел.
Технически для работы DeepSeek-R1 требуется 671 миллиард параметров, из которых 37 миллиардов включены. Между тем, QwQ-32b от Alibaba требует всего 32 миллиарда параметров. Многим эти цифры могут показаться абстрактными, но они имеют огромное значение для вычислительной мощности: в то время как для работы DeepSeek-R1 требовалось 1600 ГБ видеопамяти, QwQ-32b требовалось всего 24 ГБ видеопамяти. В большинстве случаев для этого потребуется видеокарта вроде Nvidia H100 или эквивалентная, но даже у геймерской RTX 4090 есть 24 ГБ видеопамяти. Новейшая модель RTX 5090 увеличивает этот показатель до 32 ГБ.
Утверждается даже, что даже при наличии всего лишь 32 миллиардов параметров QwQ-32B по-прежнему обеспечивает производительность, равную или превосходящую R1 в таких областях, как математика, программирование и общее решение задач. Alibaba также заявила, что QwQ-32B превосходит o1-mini от OpenAI, который создан с использованием 100 миллиардов параметров. QwQ-32B доступен на Hugging Face, крупнейшем в мире сообществе разработчиков моделей ИИ с открытым исходным кодом.

QwQ-32b от Alibaba доступен по лицензии Apache 2.0, что означает, что компании и исследователи могут использовать его свободно. Что еще важнее, мы можем опробовать это через Qwen Chat от Alibaba. Как и DeepSeek, QwQ-32b имеет некоторые ограничения по количеству субъектов. Например, если вас спросят о политических вопросах, Qwen Chat выдаст сообщение, что это неподходящая тема. Но есть и несколько преимуществ, которые сразу бросаются в глаза.
QwQ-32b, похоже, дает довольно подробные ответы даже на быстрые и простые вопросы. Это может быть хорошо, но в некотором смысле довольно раздражает, поскольку предоставляет много ненужной информации, о которой вы не просили. Одним из плюсов является то, что QwQ-32b может отображать весь процесс рассуждения, аналогично функции Deep Thinking в ChatGPT, но с меньшей глубиной.
Пока неизвестно, подтвердятся ли заявления Alibaba, но, похоже, у ChatGPT и DeepSeek появился новый достойный конкурент.