Почему у нейросетей (пока) не получаются хиты

Нейросети быстро учатся: всего за несколько десятилетий им удалось перейти от создания какофоний к связным произведениям. Компьютерная музыка появилась в 1950-х годах и звучала, мягко говоря, на любителя. Включите «Сюиту Иллиака»: ради интереса послушать можно, но добавлять в плейлист — нет, спасибо.

С тех пор машины прошли большой путь, чтобы в 2021 году замахнуться на творчество немецкого классика. Разумеется, сразу после премьеры нашлись критики: «не тот уровень», «Бетховен бы перевернулся в гробу». Однако никто из слушателей, которым еще на этапе создания проигрывали части симфонии, так и не смог определить, где заканчиваются фрагменты, написанные композитором, и начинается «синтетическая» часть. А среди них между прочим были музыковеды и исследователи творчества Бетховена.

На самом деле, чтобы произведение, созданное нейросетью, получилось органичным и приятным на слух, участие человека было необходимо как в прошлом веке, так и сейчас. Понять почему можно, разобравшись, как «творит» нейросеть.

Существует несколько подходов к созданию музыки. Создатели «Сюиты Иллиака» использовали алгоритмический — машине задавали много правил, которые она должна была учитывать при написании композиции. Результат компьютер выдавал в виде чисел, а уже потом человек переводил их в ноты. Сейчас этот путь применяется очень редко, потому что для генерации связного произведения нужно прописать огромное количество подобных инструкций. Но даже их соблюдение не гарантирует, что на выходе мы получим приятную на слух музыку.

Чтобы дописать симфонию Бетховена, ученые использовали более современную технологию машинного обучения. Они загрузили множество произведений композитора в несколько нейросетей, чтобы на этих примерах искусственный интеллект научился «думать» как великий композитор и понял особенности стиля автора. Используя это знание, нейросеть смогла объединить черновики десятой симфонии, сгенерировать недостающие фрагменты и сделать оркестровку.

Собственно, этот метод лежит сегодня в основе генеративной технологии. Прежде чем написать трек, машина должна досконально изучить человеческую музыку. Нейросеть анализирует звуковые файлы, «расщепляя» их на мельчайшие детали и изучая мелодии, причем так глубоко, как мы не можем себе представить. Для нас понятными характеристиками являются темп, размер, тональность, настроение, жанр, используемые музыкальные инструменты. Мы можем продолжить этот список, но он не будет слишком длинным. Нейросеть же способна оценить музыку по тысячам параметров, многие из которых даже не имеют названия в нашем языке, но, по «мнению» ИИ, являются значимыми элементами. Когда нейросеть «понимает» закономерности, она может сгенерировать на этой основе что-то свое. Чем больше примеров человеческой музыки загружается, тем шире поле для «творчества» у ИИ и тем интереснее получится итоговое произведение.

В целом не так важно, «сочиняет» ли компьютер мелодию на основе машинного обучения или алгоритмическим путем, ему пока не удается выстроить структурное цельное произведение без помощи человека. Часто композиторам приходится перебирать тонны сгенерированного материала, чтобы найти удачные куски и «сшить» их в законченную музыкальную композицию. Проблема еще и в том, что нейросетевой автор не знает, что он хочет сказать своим произведением. Ведь музыка — это очень сложная интерпретация действительности, перевод с языка эмоций и окружающих нас предметов на язык нот. Сможет ли нейросеть выразить с помощью музыки ход каравана через пустыню, тревогу, смену времен года? Безусловно, в музыке есть свои законы, которые можно в виде алгоритма загрузить в ИИ, и у него даже получится создать интересные сочетания звуков. Но чтобы хорошо зазвучала целая композиция, все равно пока нужна помощь специалистов.

Однако ключевое слово здесь — «пока». С каждым годом нейросеть становится все менее таинственной для человека штукой. Крупные компании не жалеют денег на освоение новых технологий, каждый день в мир ИИ приходят молодые энтузиасты, изучать работу нейросетей начинают уже в школах. Например, в этом году в рамках проекта «Урок цифры» «Яндекс» запустил занятие «Цифровое искусство: музыка и IT», где эксперты компании рассказывают, как машины распознают, рекомендуют и сочиняют музыку. С помощью интерактивных тренажеров участники примерят на себя роль ИИ: попробуют оцифровать звуковую волну или по спектрограмме найти одинаковую песню, исполненную на разных инструментах. После прохождения урока можно отдаться творческому порыву и завершить музыкальное произведение, используя палитру из аккордов, ударных и басов. Совместная работа над композициями в индустрии не редкость. Если композиторам и музыкантам не хватает вдохновения, то на помощь приходит нейросеть: она пишет музыку, а человек тексты к ней, и наоборот.

Но и на этом творческий потенциал ИИ не заканчивается — кажется, что для него нет границ возможного. ИИ даже пробует себя в качестве исполнителя. Существуют полноценные виртуальные артисты, так называемые «вокалоиды», которые дают концерты, снимаются в рекламе и участвуют в телепередачах. В них загружают мелодию и текст, и на основе этих данных синтезируется человеческое пение. «Оживляют» вокалоида с помощью голограммы. Одна из самых популярных виртуальных исполнителей — японская певица Хатсуне Мику — в 2014 году выступала на разогреве у Леди Гаги. А еще голограмма — это классный инструмент, когда мы хотим побывать на концерте артиста, которого с нами уже нет.

Несмотря на значительные успехи ИИ в музыкальной индустрии, пока еще сложно представить, что по сцене вместо вечно молодого Стивена Тайлера с голым торсом носится бездушная 3D-модель, а толпа фанатов плачет от эмоций. Все-таки музыка — это не только звуковые волны, но и смыслы, энергетика. Произведение, созданное или исполненное человеком, — это высказывание, а симфония под авторством машины — просто набор нот и пауз между ними, как бы красиво они ни звучали. Да и люди пока еще не готовы видеть в произведениях, созданных не человеком, искусство.

Cyber-Бетховен, или Почему у нейросетей (пока) не получаются хиты