Китайская технологическая группа Alibaba только что анонсировала новую модель искусственного интеллекта под названием QVQ-Max из серии Qwen, что ознаменовало собой прорыв в области мультимедийного искусственного интеллекта. Особенностью этой модели является способность анализировать контент изображений/видео, а затем выдвигать аргументы и решения на основе полученной информации.
Впечатляющие способности
Alibaba описывает QVQ-Max как мост между чисто текстовыми моделями ИИ и реальным миром. Благодаря возможностям визуального мышления система может:
- Анализ изображений и определение ключевых элементов
- Универсальное применение во многих областях: от дизайна иллюстраций и создания сценариев для видео до ролевых игр персонажей.
- Решайте задачи с помощью диаграмм (математика, физика)
- Пошаговые инструкции по приготовлению на основе фотографий рецептов
В Alibaba утверждают, что модель помогает преодолеть разрыв между искусственным интеллектом, который обрабатывает только текст, и реальной информацией. Благодаря своей способности к визуальному мышлению QVQ-Max может «видеть, понимать и думать» об окружающем мире. Компания подчеркивает свое превосходство в анализе изображений, определении ключевых элементов и гибкости ее применения во многих областях, таких как дизайн иллюстраций, создание видеосценариев или ролевые игры.

Как и другие чат-боты на основе искусственного интеллекта, QVQ-Max поддерживает работу, образование и личную жизнь, но благодаря визуальной интеграции он также решает более конкретные задачи, такие как: решение математических/физических задач с помощью диаграмм, инструкции по приготовлению блюд с помощью изображений рецептов.
Alibaba рассматривает QVQ-Max как первую версию и наметила план обновления для последующих версий. Во-первых, они хотели повысить точность распознавания изображений с помощью методов заземления. Во-вторых, модель будет оптимизирована для обработки многозадачности и решения сложных задач, таких как работа с телефонами, компьютерами или играми. В конечном итоге Alibaba планирует расширить возможности текстового взаимодействия до проверки инструментов и создания графического контента.
Пользователи могут испытать QVQ-Max следующими способами:
- Посетите chat.qwen.ai
- Выберите меню моделей в левом углу → « Развернуть больше моделей »
- Выберите QVQ-Max и начните общение
- Прикрепите файлы изображений, чтобы изучить возможности обработки с помощью ИИ
С запуском QVQ-Max Alibaba продолжает укреплять свои позиции в гонке за разработку мультимедийного ИИ, напрямую конкурируя с мировыми технологическими гигантами. Модель обещает найти практическое применение в работе, образовании и личной жизни.