Можно ли сочинить музыку с помощью нейросети, не зная нот

Загрузка

Можно ли сочинить музыку с помощью нейросети, не зная нот

С чего всё начиналось

В 1957 году Лежарен Хиллер и Леонард Айзексон запрограммировали компьютер ILLIAC I в Университете Иллинойса в Урбана-Шампейн, где они оба преподавали. Результатом их работы стала Illiac Suite — первое в мире музыкальное произведение, частично созданное машиной. Позже композицию переименовали в Струнный квартет № 4.

Только представьте, как бы удивились Лежарен и Леонард, если бы узнали, что сегодня для создания такой музыки достаточно открыть сайт Suno, ввести короткое описание будущего трека и нажать Generate. Даже подписка не потребуется.

Интересно, как мог бы звучать промт для их квартета сейчас? Возможно, так:

(01)

Звучит довольно приятно, не смотря на почти вековую древностьСлушать

«Медленный струнный квартет в экспериментальном стиле, сдержанный, прозрачный, с лёгкими диссонансами, редкими паузами и непредсказуемым ритмом...»

Эксперимент двух энтузиастов стал отправной точкой в истории компьютерной музыки. Сначала появилась Illiac Suite. Затем десятки попыток научить машину понимать и создавать звуки, похожие на музыку.

В 1960 году советский исследователь Рудольф Зарипов опубликовал первую в мире статью об алгоритмическом сочинении на компьютере «Урал-1».
В 1961 году компьютер IBM 7094 «запел» и исполнил песню Daisy Bell.
В 1965 Рэймонд Курцвейл представил программу, способную распознавать музыкальные закономерности и сочинять на их основе новые композиции.
А в 1980–90-х к развитию ИИ-музыки подключились Yamaha, Sony и другие компании.

Шаг за шагом искусственный интеллект осваивал музыку. От программы EMI, имитирующей стиль Баха, до её преемницы Эмили Хауэлл, которая уже выпускала собственные альбомы.

Как нейросети «сочиняют» музыку сейчас

Несколько необычных историй о том, как технологии и нейросети помогают создавать музыку в наши дни.

Композитор, сочиняющий музыку после смерти

(02)

Тогда трек звучал крипово, а сегодня звучит кринжово. Но мило, не спорим.Слушать

Кто это придумал. В Австралии команда художников и учёных буквально «воскресила» американского композитора. Альвин Люсье — пионер экспериментальной музыки, который умер в 2021 году. Но сегодня, в Художественной галерее Западной Австралии, он «продолжает сочинять» музыку благодаря нейронауке.

Команда проекта давно восхищалась его работами и начала обсуждать идею сотрудничества ещё в 2018 году. В 2020-м, уже страдая от болезни Паркинсона.

(03)

Создавать новую музыку с помощью своей крови? Звучит как хороший боди-хоррор от кинопродюссеров А24.Читать

Люсье согласился пожертвовать кровь для создания мини-версии своего мозга — органоида, который будет продолжать сочинять музыку после его смерти.

Как это работает. Лейкоциты Люсье сначала превратили в стволовые клетки, затем в церебральные органоиды — скопления нейронов, имитирующие структуру мозга. Мини-мозг композитора вырастили на сетке из 64 электродов. Эти два белых сгустка, похожих на маленьких медуз, разместили в центре зала, на постаменте, под увеличительным стеклом.

Инсталляцию дополнили 20 параболических латунных пластин, напоминающих золотые спутниковые тарелки. Их поместили на стены зала вокруг постамента. За каждой пластиной спрятан преобразователь и молоточек: они реагируют на нейронные сигналы мозга и создают звуки. Так мини-мозг становится живым «исполнителем». Один из участников проекта, Мэтт Гинголд, специально адаптировал платформу с открытым кодом, которая интерпретирует эти сигналы и превращает их в звук.

Но мини-мозг композитора не только генерирует сигналы, но ещё и получает их. Микрофоны в зале улавливают окружающие звуки: голоса, шум шагов, резонанс пластин.

Эти сигналы преобразуются в электрические импульсы и возвращаются обратно в мозг. В результате этого по залу разносится странная и загадочная, почти инопланетная симфония: дребезжание, гул, завывания. Как писали в The Guardian, это похоже на настройку оркестра в параллельной вселенной. Только музыкантов рядом нет.

Приложение, помогающее управлять музыкой

В чём смысл. Аспирант Сколтеха Илья Боровик вместе с коллегой из Германии разработали приложение, которое позволяет управлять звучанием музыкальных произведений с помощью голоса или мимики. Это особенно важно для людей с ограниченными возможностями. С помощью такого приложения можно в реальном времени менять звучание известных композиций. Иными словами, даже не зная нот и не умея играть, пользователь может почувствовать себя дирижёром или композитором, добавить в музыку своё настроение и видение.

(04)

С этой музыкой уже можно поиграться самостоятельно.Читать

Как это работает. В основе системы лежит ИИ-модель, обученная на 1067 записях 236 классических фортепианных произведений. Она анализирует ноты и предсказывает, как именно их следует сыграть: с какой громкостью, в каком темпе и с какой длительностью. Это позволяет создавать вариативное, «живое» исполнение.
Пользователь запускает приложение на смартфоне и даёт доступ к камере и микрофону. После этого начинается воспроизведение одной из пьес из базы данных. Чтобы изменить звучание, достаточно сказать «играй быстрее», «сбавь темп» или даже «добавь экспрессии».

Также можно использовать мимику и жесты: нахмуриться, если мелодия не нравится, или кивнуть и улыбнуться, если ритм устраивает.

ИИ интерпретирует такие команды как музыкальные указания — ускорить темп, сделать звук тише, добавить акцент. Всё это те же самые инструкции, которые музыканты читают в своих нотных записях. Только теперь роль дирижёра берёт на себя слушатель.

Нейросеть, превращающая любые данные в музыку

В чём смысл. Исследователи из Гонконгского университета науки и технологий создали нейросеть AudioX — модель нового поколения, которая умеет создавать музыку из текста, изображения, видео или аудиозаписей.

Главная идея проекта — приблизиться к тому, как работает человеческое восприятие и объединить информацию из разных каналов (зрение, слух и речь) в единую «сенсорную» картину. Вместо того чтобы использовать отдельные модели для текста, видео и звука, AudioX работает как универсальный кросс-модальный генератор, способный понимать, синтезировать и воспроизводить любое сочетание данных.

По замыслу разработчиков, в будущем такая система может кардинально изменить подход к созданию звука в кино, играх и креативной индустрии.

Можно озвучить сцену в фильме, не записывая звуки вручную. Достаточно показать нейросети видео, а она сама сделает саунд-дизайн: например, добавит звук шагов по лестнице, стук каплей по крыше, скрип пола или наложит подходящую по настроению фоновую музыку.

(05)

На «Гитхабе» есть не только код, но и веб-эмулятор.Сыграть

Как это работает. AudioX построена на архитектуре диффузионного трансформера и обучена через технику мультимодального маскирования. В процессе обучения модели не хватает части информации: из видео удаляются кадры, из текста слова, из звуков фрагменты. Она учится восстанавливать недостающее, используя данные из других модальностей. Это создаёт единое пространство представлений, где звук, текст и изображение начинают «понимать» друг друга.

На вход можно подать что угодно: текст описания сцены, видеоролик, фотографию или фрагмент уже готовой музыки. AudioX анализирует содержимое и генерирует музыкальный или аудиотрек, максимально подходящий по стилю.

Команда планирует улучшить качество генерации и научить нейросеть генерировать более длинные аудиофрагменты, а также расширить обучающую выборку и встроить в модель элемент эстетического восприятия, чтобы приблизить её к человеческому вкусу и чувствительности.

Как почувствовать себя ИИ-композитором

Suno AI.

Популярный сервис, простой в использовании: пишем промпт, нажимаем Create и получаем готовый трек со словами или без. С текстом нейросеть тоже может помочь. По одному запросу нейросеть выдаёт два варианта трека на выбор. В промте можно указать настроение, жанр или тему песни. Нейросеть распознаёт имена настоящих композиторов и музыкантов. Например, создаст мелодию в стиле Шопена или Чайковского.

Soundraw.

Музыкальный конструктор, где можно задавать параметры вручную: темп, настроение, жанр, структуру и инструменты. Треки автоматически разбиваются на сегменты, которые можно редактировать — добавлять басы, убирать барабаны, менять длительность. Подходит для создания фоновой музыки, но звучание может быть однообразным.

Mubert.

Создаёт инструментальную музыку на основе текстовых запросов или изображений. Можно выбрать настроение, длительность и жанр трека: например, фолк, хип-хоп или диско. Подходит для создания музыки на фон видео. Есть функция генерации музыки из изображения (привет, AudioX), но результат может быть непредсказуемым.

Media.io.

Онлайн-сервис для генерации инструментальной музыки по жанру, настроению или текстовому описанию. Можно выбрать стиль, задать тему (где вы планируете использовать музыку) и длительность трека. Есть шаблоны и подсказки.

Riffusion.

Мобильное приложение для генерации коротких песен с вокалом. Есть три режима: по картинке, по тексту или по комбинации параметров. Можно указать настроение, жанр, тему. Треки генерируются быстро и автоматически проигрываются в ленте.

Udio.

Генерирует вокальные или инструментальные треки по промту. Можно указать жанр, темп, настроение, выбрать инструменты. Поддерживает три режима: генерация текста песни, загрузка собственного текста или музыка без вокала. На каждый запрос вы получите два варианта трека. Есть возможность редактирования — например, можно дописать куплет или заменить проигрыш.

(06)

Это — самый простой и быстрый сервис для того, чтобы попробовать. Если начинаете, то начнайте сразу с него.

Музыка без нот: как сочиняют музыку с помощью нейросетей

Краткий пересказ от YandexGPT

ещё по теме