Стань звездой: Как создать хит с помощью Машинного Обучения

Современные исполнители часто слышат в свой адрес обвинения, будто их хиты сделаны по одному образцу. А можно ли создать алгоритм, который действительно сможет предсказать, какая песня займёт вершины чартов? Короткий ответ — с некоторыми допущениями, можно. За подробностями приглашаем читать дальше.

В 2014 году этой задачей занималась исследовательница Сингапурского университета технологий и дизайна Дориэн Херреманс (Dorien Herremans). Она предположила, что в музыкальных хитах есть некий волшебный ингредиент, который и обеспечивает им любовь миллионов. Эта задача явно лежит в области Data Science и аналитики данных — именно эти технологии помогают экспертам определять скрытые паттерны и определяющие факторы явлений.

Механика известна — системе нужно предложить наборы хитовых песен и менее успешных композиций. Аналитическое ядро сравнит их между собой и определит разницу, которая теоретически и ответит на наш вопрос.

Чтобы не засорять данные откровенным мусором, Херреманс не стала сравнивать условную Adele с условными «Гаражными метал-разрушителями». Она ограничила выборку композициями, которые смогли пробиться в чарты, чтобы узнать, почему одним исполнителям удалось добраться до топ-10, а другие остановились ниже.

Курс по Machine Learning
Идет набор в группу 3 800₽ в месяц

У исследовательницы получились три базы разной глубины и объёма. Стоит сразу отметить, что эти данные не подходят для серьёзной работы из-за несбалансированных классов

Состав дата сетов для исследования — в категорию «хиты» попали песни из топ-10 и топ-20, в «не хиты» — менее успешные композиции.
В двух базах из трёх сильно перевешивает доля «хитов», в последней перекос в сторону «неудачников». Это затрудняет работу с большинством ML-моделей.

Далее из объектов исследования следует получить наборы характеристик, по которым можно сравнивать песни между собой. Херреманс воспользовалась утилитой Echo Nest Analyzer, которая сейчас входит в API музыкального сервиса Spotify. Она позволяет ранжировать композиции по множеству параметров, включая длительность, темп, размер и тональность. Программа формирует собственные метрики, например, она может оценить «танцевальность» песни по её ритмическим особенностям или рассчитать энергичность, исходя из громкости трека и длительности его внутренних сегментов.

С помощью метода главных компонент (principal component analysis, PCA) исследовательница отследила изменения музыкального настроения в течение песни и других параметров. Наконец, все данные Херреманс наложила на временную шкалу, чтобы увидеть тенденции, которые разворачивались в чартах за последние 10 лет. Так, она отметила, что с годами хитовые песни стали короче и громче, увеличили темп и потеряли «танцевальность».

Десятилетняя эволюция музыкальных хитов в шести диаграммах

Херреманс использовала для своей работы прозрачные аналитические модели (comprehensible) и «чёрные ящики». Преимущество первых в том, что исследователь контролирует механику алгоритмов и может точнее их настраивать. За эту возможность приходится расплачиваться эффективностью программы. С другой стороны, работа «чёрного ящика» скрыта от эксперта — модель лучше справляется с нестандартными задачами вроде нашей, но менять параметры приходится методом проб и ошибок.

Курс по нейронным сетям
Идет набор в группу 4 200₽ в месяц

Для сокращения мусора на выходе Хеттерманс установила высокие настройки отсечения (pruning). Это позволило ей сразу определить два ключевых параметра, которые влияют на потенциальную хитовость песни — темп и так называемая «атака».

Исследовательница проверяла качество работы своих моделей по тому, удаётся ли им угадать чартовую позицию той или иной песни. В ходе экспериментов наилучшую эффективность показал метод логистической регрессии (logistical regression). Эта технология определяла хит с вероятностью более 60%.

Эффективность разных моделей — лучшие результаты выделены полужирным и подчеркиванием.

Как выяснилось, программе проще узнать хитовую вещь, чем угадать «неудачника». В первом случае количество ошибочных результатов составило 44 против 209 правильных (17%), во втором — 100 против 47 (31%).

Матрица ошибок по итогам обучения

Когда исследовательница прогнала через модель тестовый набор с новейшими хитами, показатели выросли ещё выше. Причину такого явления установить не удалось — возможно, модель угадывает скрытые тренды развития музыклаьной индустрии. Это один из тех неожиданных инсайтов, ради которых компании и нанимают дата-сайентистов.

При анализе новейших хитов успешность модели достигала 81%

Итак, эксперимент можно условно признать удачным. Если доработать наборы данных для обучения модели, рекорд-лейблы смогут использовать её для прогнозирования успеха своих подопечных. Компьютер, который оценивает, «зайдет» ли новый трек слушателям — разве не о таком будущем мы мечтали?

Бонус для дочитавших до конца — практическое пособие по созданию хитов, без статанализа и сложных формул.

Текст: Помогаев Дмитрий

Поделиться:
Опубликовано в рубрике Machine LearningTagged ,

SkillFactory.Рассылка