Современные исполнители часто слышат в свой адрес обвинения, будто их хиты сделаны по одному образцу. А можно ли создать алгоритм, который действительно сможет предсказать, какая песня займёт вершины чартов? Короткий ответ — с некоторыми допущениями, можно. За подробностями приглашаем читать дальше.
В 2014 году этой задачей занималась исследовательница Сингапурского университета технологий и дизайна Дориэн Херреманс (Dorien Herremans). Она предположила, что в музыкальных хитах есть некий волшебный ингредиент, который и обеспечивает им любовь миллионов. Эта задача явно лежит в области Data Science и аналитики данных — именно эти технологии помогают экспертам определять скрытые паттерны и определяющие факторы явлений.
Механика известна — системе нужно предложить наборы хитовых песен и менее успешных композиций. Аналитическое ядро сравнит их между собой и определит разницу, которая теоретически и ответит на наш вопрос.
Чтобы не засорять данные откровенным мусором, Херреманс не стала сравнивать условную Adele с условными «Гаражными метал-разрушителями». Она ограничила выборку композициями, которые смогли пробиться в чарты, чтобы узнать, почему одним исполнителям удалось добраться до топ-10, а другие остановились ниже.

У исследовательницы получились три базы разной глубины и объёма. Стоит сразу отметить, что эти данные не подходят для серьёзной работы из-за несбалансированных классов.


Далее из объектов исследования следует получить наборы характеристик, по которым можно сравнивать песни между собой. Херреманс воспользовалась утилитой Echo Nest Analyzer, которая сейчас входит в API музыкального сервиса Spotify. Она позволяет ранжировать композиции по множеству параметров, включая длительность, темп, размер и тональность. Программа формирует собственные метрики, например, она может оценить «танцевальность» песни по её ритмическим особенностям или рассчитать энергичность, исходя из громкости трека и длительности его внутренних сегментов.
С помощью метода главных компонент (principal component analysis, PCA) исследовательница отследила изменения музыкального настроения в течение песни и других параметров. Наконец, все данные Херреманс наложила на временную шкалу, чтобы увидеть тенденции, которые разворачивались в чартах за последние 10 лет. Так, она отметила, что с годами хитовые песни стали короче и громче, увеличили темп и потеряли «танцевальность».

Херреманс использовала для своей работы прозрачные аналитические модели (comprehensible) и «чёрные ящики». Преимущество первых в том, что исследователь контролирует механику алгоритмов и может точнее их настраивать. За эту возможность приходится расплачиваться эффективностью программы. С другой стороны, работа «чёрного ящика» скрыта от эксперта — модель лучше справляется с нестандартными задачами вроде нашей, но менять параметры приходится методом проб и ошибок.

Для сокращения мусора на выходе Хеттерманс установила высокие настройки отсечения (pruning). Это позволило ей сразу определить два ключевых параметра, которые влияют на потенциальную хитовость песни — темп и так называемая «атака».
Исследовательница проверяла качество работы своих моделей по тому, удаётся ли им угадать чартовую позицию той или иной песни. В ходе экспериментов наилучшую эффективность показал метод логистической регрессии (logistical regression). Эта технология определяла хит с вероятностью более 60%.

Как выяснилось, программе проще узнать хитовую вещь, чем угадать «неудачника». В первом случае количество ошибочных результатов составило 44 против 209 правильных (17%), во втором — 100 против 47 (31%).

Когда исследовательница прогнала через модель тестовый набор с новейшими хитами, показатели выросли ещё выше. Причину такого явления установить не удалось — возможно, модель угадывает скрытые тренды развития музыклаьной индустрии. Это один из тех неожиданных инсайтов, ради которых компании и нанимают дата-сайентистов.

Итак, эксперимент можно условно признать удачным. Если доработать наборы данных для обучения модели, рекорд-лейблы смогут использовать её для прогнозирования успеха своих подопечных. Компьютер, который оценивает, «зайдет» ли новый трек слушателям — разве не о таком будущем мы мечтали?
Бонус для дочитавших до конца — практическое пособие по созданию хитов, без статанализа и сложных формул.
Текст: Помогаев Дмитрий