Генеративная музыка: как создать хит по собственному вкусу

Слова вместо нот

После того как мы наигрались с графическими нейросетями Midjourney, DALL-E 2 и Stable Diffusion и даже нарисовали себе при их помощи обложку и часть журнала, возник вопрос, когда появятся подобные музыкальные сервисы. Пишешь: «хочу что-то в стиле калифорнийского серф-рока, но чтобы на гитаре играл Джими Хендрикс, на барабанах – Джон Бонэм, а вокал был от Сэм Браун» – и тебе нейросеть генерит персональный хит. Первый же запрос в Google «text-to-music» выдал в поиске Mubert – проект с российскими корнями, о котором мы писали еще в 2019 году и который с тех пор стал одним из лидеров в мире генеративной музыки. И я отправился к сооснователю Mubert Павлу Згордану, который отвечает в компании за это направление.

В основе технологии генеративной музыки Mubert лежит огромная база семплов – небольших музыкальных партий размером от 1 до 64 тактов, из которых алгоритм, как из кирпичиков, строит музыкальную композицию. В 2019 году коллекция Mubert исчислялась сотнями тысяч семплов, сегодня счет идет на миллионы, и каждый месяц добавляются новые. Mubert покупает их через собственную биржу. «Сейчас мы платим около 50 центов за семпл, и музыканты, которые сотрудничают с нами, зарабатывают на этом в среднем по 500–600 долл. в месяц. Фрагменты необязательно должны сильно отличаться друг от друга – могут быть просто вариации». Собственно, семплы – единственное, что осталось от старого Mubert: все алгоритмы и движки были кардинально переработаны. Старый алгоритм на основе лайков/дизлайков считал так: «если вам понравилось это сочетание звуков, то послушайте теперь вот такое – оно понравилось кому-то с аналогичными предпочтениями». Сейчас результаты выбора прогоняются через нейросеть и преобразуются в некий вектор в многомерном пространстве. Mubert изучил множество данных по трекам в разных жанрах, и музыка стала четче совпадать с ожиданиями пользователей.