EMO (Emotive Portrait Alive) — это новый генеративный искусственный интеллект, разработанный Институтом интеллектуальных вычислений (IIC) компании Alibaba, способный «волшебным образом» преобразовывать любое изображение в реалистично говорящего и поющего человека.
Другими словами, искусственный интеллект Alibaba может превратить статичное эталонное изображение и голосовую запись в видео, которое может говорить и петь с естественной мимикой.
Предыдущие ИИ изменяли только рот и часть лица, в то время как EMO может создавать выражения лица, естественные выражения рта, точную синхронизацию губ, двигать бровями, хмуриться или даже покачиваться в такт музыке.
Alibaba выпустила несколько видеороликов, демонстрирующих, как изображения будут превращаться в видеоролики и исполнять импортированные песни на лету. EMO поддерживает английский, китайский и многие другие языки.
Alibaba сообщила, что для того, чтобы EMO мог создавать реалистичные выражения лица, его обучали с использованием большого объема изображений, аудио- и видеоданных с помощью собственной модели диффузии под названием Audio2Video.
Для решения актуальной проблемы реалистичности и выразительности при создании видео из изображений и звуков исследовательская группа сосредоточилась на взаимосвязи и нюансах между звуковыми сигналами и движениями лица, обходя промежуточные связи 3D-моделей или лицевые ориентиры, плавно переходя между кадрами и сохраняя последовательность в видео.
Alibaba не сообщила, когда она представит этот ИИ общественности, но опубликовала данные EMO на Github, а исследовательские работы — на ArXiv.