Сегодня компания Amazon представила Nova Sonic — усовершенствованную модель преобразования речи, которая позволяет разработчикам создавать приложения, способные общаться с помощью голосов, имитирующих человеческие, в режиме реального времени. Amazon утверждает, что эта новая аудиомодель может похвастаться лучшим в отрасли соотношением цены и производительности и низкой задержкой.
Обычно разработка приложения с поддержкой голоса требует от разработчиков одновременной работы с несколькими моделями:
- Модель распознавания речи для преобразования звука в текст.
- Большая языковая модель (LLM) для понимания и генерации ответов.
- Модель преобразования текста в речь.
Такой подход не только сложен, но и часто упускает из виду важные акустические контексты, такие как тон, просодия и стиль речи.

Nova Sonic решает эту проблему, объединяя понимание и генерацию звука в единую модель. Единый подход помогает модели улавливать тон, стиль и аудиовход, создавая более естественный диалог. Он также определяет подходящее время отклика и лучше справляется со вторжениями.
Nova Sonic поддерживает как мужские, так и женские голоса со многими акцентами английского языка, такими как американский, британский. Разработчики могут получать доступ к моделям через Amazon Bedrock, используя API двунаправленной потоковой передачи, поддерживающий вызов функций. Эта модель также оснащена встроенными функциями защиты, такими как модерация контента и водяные знаки.
В связи с этим в прошлом месяце компания OpenAI анонсировала новое поколение моделей преобразования речи в текст — gpt-4o-transcribe и gpt-4o-mini-transcribe — со значительными улучшениями в отношении уровня ошибок в словах, распознавания языка и точности по сравнению с предыдущими моделями Whisper.