В чём смысл. Исследователи из Гонконгского университета науки и технологий создали нейросеть AudioX — модель нового поколения, которая умеет создавать музыку из текста, изображения, видео или аудиозаписей.
Главная идея проекта — приблизиться к тому, как работает человеческое восприятие и объединить информацию из разных каналов (зрение, слух и речь) в единую «сенсорную» картину. Вместо того чтобы использовать отдельные модели для текста, видео и звука, AudioX работает как универсальный кросс-модальный генератор, способный понимать, синтезировать и воспроизводить любое сочетание данных.
По замыслу разработчиков, в будущем такая система может кардинально изменить подход к созданию звука в кино, играх и креативной индустрии.
Можно озвучить сцену в фильме, не записывая звуки вручную. Достаточно показать нейросети видео, а она сама сделает саунд-дизайн: например, добавит звук шагов по лестнице, стук каплей по крыше, скрип пола или наложит подходящую по настроению фоновую музыку.