Симпсоны встречают визуализацию данных

Вступление

Есть всего несколько вещей , которые я люблю больше , чем мультсериал «Симпсоны». Это одно из ТВ-шоу, о котором я думаю ежедневно. С 30 сезонами и более чем 600 эпизодами этот мультсериал занимает особое место в моем сердце. Очень часто я ловлю себя на том, что напеваю мелодию из серии «Мистер Плуг» или «Все ненавидят Неда Фландерса».

Естественно, когда я обнаружил, что могу загрузить все сценарии эпизодов через kaggle, то понял, что должен это сделать. Имея доступ ко всем фразам, когда-либо сказанным Гомером, я надел свой костюм дата саентиста и решил извлечь некоторые идеи из самого яркого анимационного шоу последних трех десятилетий.

DS
Специализация Data Science
Идет набор в группу 12 500₽ в месяц

Персонажи

Давайте посмотрим на персонажей шоу. Ниже приведена схема, которая показывает пятнадцать персонажей с наибольшим количеством фраз в сериале. Персонажи с большими кружками говорят чаще, чем персонажи с меньшими.

Персонажи Симпсонов по количеству реплик

Вполне понятно, что главными героями шоу на самом деле являются Гомер, Мардж, Барт и Лиза Симпсон. У них значительно больше фраз, чем у остальных персонажей. Любопытно, что дедушка Симпсон хоть и является членом семьи и часто появляется в доме своего сына, он говорит меньше, чем его родственники и даже некоторые второстепенные персонажи.

Теперь, когда мы увидели, какие персонажи чаще всего говорят в сериале, давайте посмотрим, как они общаются друг с другом.

По сюжету мы можем выделить три основных вида взаимодействия между героями. Во-первых, внутри семьи Симпсонов много диалогов. Меньше разговоров происходит между членами семьи Симпсонов и второстепенными персонажами. Наконец, очень мало разговоров, в которых семья Симпсонов не участвует вообще.

Кто говорит с кем
Цвет каждого квадрата — количество реплик, которое герой в каждой строке сказал герою в каждом столбце. Более светлые квадраты означают, что было сказано больше реплик.

Отличительной особенностью сюжета сериала является то, что он подчеркивает интересную динамику конкретного персонажа.

Например, эпизоды с проблемами с законом Клоуна Красти в большом количестве показаны через его разговоры с начальником полиции Виггамом.

Я сделал еще одну тепловую карту, куда дополнительно включил еще 75 персонажей. Это не просто красивая картинка — она также показывает, что большинство разговоров происходит между несколькими персонажами (т.е. данные имеют «длинный хвост»).

тепловая карта топ-75 персонажей

Что они говорят?

Можем ли мы получить наглядное представление о том, что говорят персонажи? Один из способов — это посмотреть на эмоциональную окраску их фраз.

Мы можем определить количество эмоций в каждой фразе, используя технику обработки естественного языка, VADER Sentiment Analysis . Следует обратить внимание на то, что этот подход оптимизирован для текста в социальных сетях, поэтому мы должны воспринимать результаты с некоторой долей погрешности.

Теперь мы можем увидеть тридцать персонажей с наибольшим количеством фраз, упорядоченных по оценке их положительности. Кажется, что Эдна Крабаппл (учитель Барта) и Пэтти Бувье (сестра Мардж) — самые позитивные персонажи. Однако лично я никогда не находил их особенно приятными.

С другой стороны, отрадно видеть Неда Фландерса в верхней части таблицы, а Деда, Нельсона и Смотрителя Вилли — в нижней части. Кроме того, интересно, что Шестерка Боб одновременно и позитивен, и негативен. Он кореш клоуна Красти, поэтому должен быть позитивным парнем. Но если мы помним все его убийственные заговоры, то исходящий от него негатив неудивителен.

Курс «Python для анализа данных»
Идет набор в группу 2 700₽ в месяц

Также можно заметить, что строки, обозначающие количество фраз некоторых персонажей длиннее, чем у других. У Гомера больше всего строчек, потому что он главный герой. Но часто он говорит всего пару слов за раз, например «Ммм пончики» или «Ах ты, маленький!». Диаграмма ниже поможет понять, какие персонажи произносят больше всего слов за раз.

Кому из Симпсонов есть что сказать?

Мэгги Симпсон вообще говорит редко (как вы помните, она еще совсем ребенок), но даже у нее есть по крайней мере одна длинная тирада. У Троя МакКлюра и Кента Брокмана чаще остальных среднее количество слов в фразе. Это логично, если мы вспомним, что они оба телевизионные звезды (Кент Брокман передает новости, а Трой МакКлюр — актер с 70-х годов).

Дедушка Симпсон произносит самую длинную речь за всю историю шоу. Я оставлю ее здесь для вашего удовольствия.

«One trick is to tell them stories that don’t go anywhere… Like the time I caught the ferry over to Shelbyville. I needed a new heel for my shoe, so I decided to go to Morganville, which is what they called Shelbyville in those days. So I tied an onion to my belt, which was the style at the time… now to take the ferry cost a nickel, and in those days nickels had pictures of bumblebees on them. “Give me five bees for a quarter” you’d say. Now, where were we? Oh yes, the important thing was that I had an onion on my belt, which was the style at the time. They didn’t have white onions, because of the war…»

Кроме того, сколько говорит каждый из персонажей, мне было также любопытно, когда они говорят. Каждая строка данных включает пометку о времени в пределах эпизода. Я проанализировал 3000 персонажей с наибольшим количеством фраз.

Я разделил персонажей на две категории: те, которые появились только в одном эпизоде, и те, кто появился в нескольких. Построение количества линий для каждого персонажа на оси Y показало, что герои с большим количеством фраз в среднем появляются в середине эпизода.

Интересно отметить, правый верхний угол выглядит так, будто персонажи, которые появляются только в одном эпизоде ​​Симпсонов, часто говорят в течение 2/3 эпизода. Это кажется логичным, поскольку мы ожидаем встретить новых персонажей где-то в середине эпизода, а не в самом начале. После того, как нам их представят, они говорят больше фраз.

partfolio_ds
Специализация Аналитик Данных
Идет набор в группу 6 900₽ в месяц

Где они говорят?

До сих пор мы рассматривали только персонажей и их фразы. Но мы еще не собрали места действия эпизодов и отношения персонажей.

Самые популярные места в Симпсонах ( по количеству сказанных там реплик)

Очевидно, что начальная школа Спрингфилда, таверна Мо и Спрингфилдская атомная электростанция (где работает Гомер) являются наиболее распространенным местом действия в сериале. Сразу оговорюсь, что я убрал дом Симпсонов со схемы, потому что в противном случае он бы занял собой все пространство.

Другие популярные места — церковь, гостиная, Kwik-E-Mart и даже поместье Бернса. Цвет и размер каждого из прямоугольников соответствует количеству произнесенных в этом месте фраз.

А как насчет реальных мест? Как много героев сериала знают о нашем мире? Для этого мы можем посмотреть, как часто они упоминают штаты США.

Как часто какой-либо штат упоминается в Симпсонах

Персонажи часто говорят о Нью-Йорке, Техасе, Калифорнии, Аляске, Флориде, Вашингтоне и даже Небраске. Я должен отметить, что нужно внимательнее посмотреть на данные по Вашингтону. Я отфильтровал фразы, содержащие «Вашингтон» или «Джордж Вашингтон», потому что чаще в этом контексте герои говорили о государстве или бывшем президенте.

Подобные карты часто превращаются в схемы плотности населения. Однако в нашем случае такой проблемы нет — ведь мы смотрим на показатель, который не связан с населением.

Симпсоны в реальном мире

Сценарии серий позволили нам лучше понять динамику персонажей и мест «Симпсонов». А теперь давайте сменим тему и рассмотрим аудиторию шоу. Ниже показано распределение количества зрителей в Соединенных Штатах по всем эпизодам.

Большинство эпизодов смотрят восемь или девять миллионов зрителей, а некоторые видели тридцать миллионов и более!

Количество просмотров Симпсонов в миллионах

Однако на графике не хватает сравнения по времени выхода эпизодов. А это, как по мне, очень важный фактор. Мой следующий график покажет, как изменилась популярность Симпсонов за последние тридцать лет.

Схема показывает рейтинг IMDB (синий) и количество просмотров аудиторией США (оранжевый) для каждого эпизода. Кроме того, она отображает название эпизода и номер сезона. Прокрутка по горизонтали показывает длительность всех эпизодов.

Понятно, что в самом начале у «Симпсонов» было много зрителей. Их популярность длилась около восьми сезонов. В течение девятого, десятого и одиннадцатого сезонов зрителей было очень мало. Когда начался двенадцатый сезон, произошел значительный скачок, и так уж вышло, что у «Худшего Эпизода» была одна из самых больших аудиторий в этом сезоне. С тех пор «Симпсоны» демонстрируют снижение интереса.

Смотрят меньше людей? Может быть. Однако все меньше людей смотрят телевизор в целом. Сам рейтинг сериала довольно близок к тому, каким он был всегда. Так что тут смело можно сказать, что «Симпсоны» живы и здоровы.

Заключение

В этой статье мы узнали подробности, о которых не догадывалось большинство преданных фанатов сериала, даже таких как я. Мы узнали, кто говорит больше всего, кто с кем коммуницирует и что говорят эти персонажи. Мы также узнали, когда и где они говорят, и в дополнение к этому, о каких местах. Наконец, мы изучили их место в массовой культуре и то, как «Симпсонам» до сих пор удалось выжить.

По ссылке больше материалов по анализу Симпсонов: https://www.youtube.com/watch?v=9D420SOmL6U

Оригинал статьи: The Simpsons meets Data Visualization

Перевод: Астафьева Наталья

Поделиться: