Компания OpenAI только что официально представила значительное обновление возможностей генерации изображений на основе ИИ в ChatGPT, что является важным шагом вперед по сравнению с использованием отдельной модели генерации изображений, как в предыдущей DALL-E. Эта новая функция была интегрирована непосредственно в GPT-4o, что привело к значительным улучшениям.
Преодоление присущих ограничений
Хотя многие современные модели генерации изображений на основе ИИ способны создавать впечатляющие художественные изображения, они часто испытывают трудности с такими элементами, как текст, логотипы или повседневные предметы. OpenAI утверждает, что новый GPT-4o способен преодолеть эти ограничения благодаря своим возможностям:
- Отображать текст правильно
- Строго соблюдать требования пользователя
- Используйте базовые знания и разговорный контекст
- Позволяет редактировать загруженные фотографии или создавать новые фотографии на основе исходных фотографий.
- Широко доступно
Эта новая функция в настоящее время доступна пользователям ChatGPT Free, ChatGPT Plus, Pro и Team и станет доступна в ChatGPT Enterprise и Edu в ближайшие недели. Примечательно, что это будет инструмент создания изображений по умолчанию в ChatGPT, что позволит пользователям легко получить к нему доступ без дополнительных опций. Пользователи могут настраивать фотографии с помощью:
- Определенное соотношение сторон
- Точный цвет (используя шестнадцатеричный код)
- Прозрачный фон
- Поддержка нескольких платформ

Помимо ChatGPT, эта функция также будет доступна на таких платформах, как Sora (генерация изображений), специализированный DALL·E GPT и GPT-4o API (для разработчиков, запуск в ближайшие недели).
Несмотря на обещание множества улучшений, новая модель все еще имеет некоторые ограничения:
- Время генерации изображения может достигать 1 минуты из-за высокой детализации.
- Нежелательная обрезка вертикальных фотографий
- Иногда «фабрикуют» информацию, не требуя большого контекста
- Трудность обработки более 10-20 концепций одновременно
- Трудности с нелатинскими языками
- Подробные исправления (например, исправления орфографических ошибок) не очень эффективны.
- Трудно отображать подробную информацию при малых размерах
Все изображения, созданные GPT-4o, будут содержать метаданные C2PA, что позволит проверять происхождение с помощью внутренних инструментов OpenAI.
Несмотря на некоторые ограничения, GPT-4o обещает обеспечить более точную и настраиваемую визуализацию. OpenAI заявляет, что продолжит совершенствовать модель в ближайшие месяцы, открывая новые возможности для создания визуального контента с использованием ИИ.
Благодаря этому масштабному обновлению OpenAI продолжает укреплять свое лидерство в гонке креативного ИИ, предоставляя более удобный и мощный интерфейс для пользователей на различных платформах.