Компания Nvidia только что объявила о выпуске большой языковой модели с открытым исходным кодом (LLM), которая, как утверждается, по производительности сопоставима с ведущими фирменными моделями OpenAI, Anthropic, Meta и Google.
Эта новая модель называется NVLM-D-72B и содержит 72 миллиарда параметров. Она является частью большого семейства языковых моделей NVLM 1.0, недавно выпущенного Nvidia. NVLM 1.0 по сути представляет собой семейство крупных, пограничных многомодальных языковых моделей, которые достигают передовых результатов в задачах визуального языка, конкурируя с ведущими фирменными моделями (например, GPT-4o), а также с моделями открытого доступа.
Сообщается, что это новое семейство больших языковых моделей обладает «мультимодальными возможностями промышленного уровня» с превосходной производительностью при выполнении различных визуальных и языковых задач, а также значительно улучшает текстовую обратную связь. «Чтобы добиться этого, мы создаем и интегрируем высококачественный набор текстовых данных в процесс мультимодального обучения вместе с большим объемом мультимодальных математических и рассуждающих данных, что приводит к расширению математических и кодирующих возможностей в различных модальностях», — пояснили исследователи Nvidia в своем заявлении.
Результатом является высокопроизводительный LLM, который может выполнять такие простые задачи, как объяснение того, почему мем смешной, вплоть до решения сложных математических уравнений, шаг за шагом. Nvidia также удалось повысить точность модели только для текста в среднем на 4,3 пункта по сравнению с отраслевыми эталонами благодаря мультимодальному стилю обучения.

Компания Nvidia, судя по всему, серьезно настроена обеспечить соответствие этой модели последнему определению «открытого исходного кода» в рамках Open Source Initiative, не только опубликовав тренировочные веса для проверки сообществом, но и пообещав опубликовать исходный код модели в ближайшем будущем. Это существенное отличие от подхода таких конкурентов, как OpenAI и Google, которые очень сдержанно относятся к сохранению в тайне подробностей о весах и исходном коде своих моделей LLM. При этом Nvidia позиционировала NVLM не как прямого конкурента ChatGPT-4o и Gemini 1.5 Pro, а как платформу, позволяющую сторонним разработчикам создавать собственные чат-боты и приложения на основе искусственного интеллекта.