Китайский стартап DeepSeek в области искусственного интеллекта только что официально представил свою новейшую большую языковую модель (LLM) DeepSeek-V3-0324. Эта модель с емкостью до 641 ГБ была анонсирована на платформе AI Hugging Face без раскрытия особой информации, в соответствии с секретным стилем новых продуктов, который компания всегда применяла до сих пор.
Особенностью этой модели является лицензия MIT, которая допускает бесплатное использование в коммерческих целях. Первоначальные результаты тестов показывают, что DeepSeek-V3-0324 способен работать на основных аппаратных конфигурациях, таких как Mac Studio от Apple с чипом M3 Ultra. Специалист по искусственному интеллекту Авни Ханнун сообщил, что с помощью этой конфигурации можно достичь скорости обработки более 20 токенов в секунду. Эта возможность запускать большую языковую модель на локальном стандартном оборудовании резко контрастирует с традиционным подходом использования огромной инфраструктуры центра обработки данных для поддержки расширенных моделей ИИ.

По информации DeepSeek, первоначальные тесты показали значительные улучшения по сравнению с предыдущими версиями. Эта модель была тщательно протестирована внутренними заинтересованными сторонами и продемонстрировала превосходную производительность, превзойдя даже все другие конкурирующие модели и обойдя Claude Sonnet 3.5 компании Anthropic в задачах, не требующих глубокого мышления. Однако в отличие от моделей Sonnet, требующих платной подписки, DeepSeek-V3-0324 можно загрузить и использовать совершенно бесплатно.
Технически DeepSeek-V3-0324 использует смешанную экспертную архитектуру (MoE). Он выделяется своей способностью выборочно использовать около 37 миллиардов из 685 миллиардов параметров для каждой задачи, что повышает эффективность за счет снижения вычислительных требований при сохранении производительности. В этой модели также применяются технологии Multi-Head Latent Attention (MLA) и Multi-Token Prediction (MTP), которые способствуют улучшению контекстной памяти и ускорению вывода.
Пользователи могут получить доступ к DeepSeek-V3-0324 через Hugging Face, чат-интерфейс и API OpenRouter, а также при желании через чат-платформу DeepSeek. Поставщик услуг вывода Hyperbolic Labs также предоставляет доступ к модели.
С выпуском DeepSeek-V3-0324 компания продолжает укреплять свои позиции в гонке за разработку крупных языковых моделей, одновременно предоставляя мощный и доступный вариант для сообщества исследователей и разработчиков ИИ. Возможность работы на общедоступном оборудовании в сочетании с бесплатной лицензией, безусловно, откроет множество возможностей практического применения этой модели в ближайшем будущем.