Существует множество инструментов искусственного интеллекта для преобразования текста в видео, и хотя технология действительно впечатляет, в конечном результате всегда есть что-то, что кажется странным. Потребовалось некоторое время, чтобы точно определить проблему, но в конечном итоге все свелось к одному: эффекту зловещей долины.
Хотя вы можете использовать некоторые инструменты на базе ИИ для создания визуальных эффектов в своих видеопроектах, не рекомендуется использовать ИИ сам по себе для создания видеоматериалов, поскольку это выглядит слишком странно.
Самая большая проблема с инструментами ИИ для преобразования текста в видео
Генерация видео с помощью искусственного интеллекта за короткий период времени прошла долгий путь благодаря достижениям в области глубокого обучения. В 2023 году, когда генерация видео с использованием искусственного интеллекта станет взрывоопасной, вы, возможно, помните, как этот клип с Уиллом Смитом, поедающим спагетти, стал вирусным. Хотя в то время этот тип технологии был новаторским, нельзя отрицать, насколько неестественно и неудобно это выглядело.
В 2024 году эти инструменты обработки видео на основе ИИ станут еще лучше, создавая более плавные изображения и более реалистичные движения. Посмотрите на разницу между видеороликами, созданными с помощью Runway Gen-2 в 2023 году, и видеороликами, выпущенными OpenAI в 2024 году для демонстрации возможностей Sora AI. Sora пока недоступна для публичного использования, но качество выглядит многообещающим:
Несмотря на улучшение, результаты все еще неубедительны. Во-первых, Sora пока недоступен для использования, поэтому нам по-прежнему приходится использовать менее совершенные генераторы, которые могут выдавать жуткие результаты, вроде видео со спагетти Уилла Смита.
Просто посмотрите видео, созданное с помощью PixVerse, используя подсказку «Человек идет по парку в солнечный день, улыбается и машет в камеру. Птицы летают над головой, а деревья тихонько покачиваються на ветру» . (Примерный перевод: «Человек идет по парку в солнечный день, улыбается и машет в камеру. Над головой летают птицы, а деревья тихонько качаются на ветру»).
Первые две секунды все выглядит нормально, пока пальцы, волосы и лицо человека не начинают растворяться в воздухе! Даже несмотря на то, что появляются более продвинутые инструменты, такие как Sora, которые дают нам более точные и красивые видео, в людях и ландшафтах, созданных искусственным интеллектом, по-прежнему есть что-то тревожное.
В то время как старые модели часто создавали видеоролики, наглядно демонстрирующие возможности ИИ, похожие на изображения в стиле пластилиновой анимации, усовершенствования новых инструментов выглядят почти идеально.
Неестественно, неудобно и безжизненно. Это как раз тот самый эффект зловещей долины — похожий на человеческий, но не совсем.
Независимо от того, насколько хороши эти инструменты, эффект зловещей долины всегда существует. Если вы не стремитесь к абстрактному, сюрреалистическому стилю, который можно увидеть только во сне, вам не следует полагаться на инструменты искусственного интеллекта для преобразования текста в видео в любых ваших видеопроектах.