Как превратить данные в график? Рассказываем на примере загрязненных водоемов

Очень часто на работе возникает ситуация, когда нужно взять большой массив чисел и сделать из них вывод. Или еще хуже: объяснить значение этих чисел коллегам. Здесь на помощь приходит визуализация данных или «датавиз» — сфера на стыке аналитики и дизайна, которая помогает превращать таблицы и отчеты в красивые и понятные графики. Чтобы разобраться в том, как правильно это делать, мы попросили автора телеграм-канала «настенька и графики» Анастасию Кузнецову показать пример простейшей визуализации данных в Tableau.

Для анализа мы взяли статистику загрязнения водоемов в России. Во-первых, потому что это актуальная и болезненная тема (все слышали про события на Камчатке), а во-вторых, — данные по ней можно скачать на сайте Росстата. Объемы загрязнений (сброса в водоемы сточных вод) определяются водоизмерительными приборами и передаются в Росстат в виде отчетов ответственными за окружающую природу специалистами. 

Рисовать все будем в Tableau — это сервис для визуализации данных, который по праву считается одним из лучших. Для такого анализа вполне хватит его бесплатной версии Tableau Public. Для дополнительных подписей я пользуюсь маковским Numbers, но он нужен мне только затем, чтобы красиво собрать все скрины воедино, подчистить лишнее и добавить заметки. 

Первое, на что мы смотрим — это поступление загрязняющих веществ со сточными водами в водоемы. Здесь данные сразу готовы к визуализации, так как на скачивание дается Excel-файл. Нужно удалить строки с ненужными годами (сфокусируемся только на 2001-2019), убрать верхние строки с заголовками и нижние с примечаниями. Можно начинать!

Вот так должен выглядеть файл после удаления из него лишних строк

Для начала загружаем данные в Tableau: под блоком Connect выбираем To a file: Microsoft Excel и выбираем наш очищенный файл. Перетаскиваем лист с данными (в данном случае это Sheet 1) в область выше (где написано Drag sheets here). В новых версиях это происходит автоматически. Снизу должна быть наша таблица, которую мы почистили в Excel. 

Поменяем тип данных для нашего года, который распознался как число — нажимаем на решетку (#) над F1 и из выпадающего списка выбираем дату (Date). Переименуем название колонки, нажав на стрелочку справа от # и выбрав Rename. Назовем эту колонку «year». 

Дальше идем на Sheet 1, где уже будем рисовать график. 

Как выбрать график? Можно исходить из цели визуализации или из самих данных. Сегодня поговорим про первый вариант. Типов графиков намного больше, но пока выделим по одному графику на каждую из целей:

  • Распределение. Когда нужно показать, что у нас за данные, и как они распределены. Самый простой график — гистограмма.
  • Сравнение. Когда нужно сравнить показатели между собой и в разных группах. Лучший вариант — барчарт (столбиковая диаграмма).
  • Часть и целое. Когда нужно показать доли или части чего-то. Самый базовый график — пайчарт (круговая диаграмма), но с ним надо быть очень осторожным — при добавлении больше пяти категорий, он становится нечитаемым, а разницу между долями отличить практически невозможно. Второй момент — сумма значений в пайчарте всегда должна равняться 100%, потому что это график для визуализации «части от целого», а не просто закругленный барчарт.
  • Изменение во времени. Когда нужно посмотреть на динамику и развитие с течением времени. Лучше всего подойдет линейный график.
  • Связь. Когда нужно показать отношение между двумя переменными, визуализировать корреляцию. Лучший вариант — скаттерплот (график рассеивания).

Каталог графиков на русском есть тут, а вот замечательный постер автора книги «Графики, которые убеждают всех» Александра Богачёва.

Поскольку наша основная задача — понять изменение данных в динамике, то визуализировать будем при помощи линейного графика. Вообще практически всегда, если у вас в данных есть дата, то линейный график будет лучше всего показывать динамику и развитие. Рисуется он достаточно просто: каждое значение за год — это по факту точка, и потом эти точки просто соединяются.

Чтобы нарисовать линейный график в Tableau, нужно перетащить нашу колонку с годом (year) в блок Columns, а Объем сброса сточных вод — в Rows. Чтобы добавить значения на график, перетащим их в блок Marks в иконку Label. Уже с таким графиком вполне можно работать.

Форматируем: нажимаем на Color в блоке Marks и выбираем цвет, который нам нравится. Изменим ось y, чтобы она начиналась с 30 и было лучше видно все изменения (нажимаем правой кнопкой мыши на ось, Edit axis -> Fixed -> Fixed Start = 30). Скроем слово year сверху, нажмем правой кнопкой мыши и выберем Hide field labels. Потом нажимаем сверху на название графика Sheet 1 и изменим его как нам нравится.

Вот такой получился линейный график в динамике с 2001 по 2019 год, на котором показан тот самый объем сброса. Дополнительный комментарий внизу графика о процентном росте я добавила через Numbers, но можно использовать любой редактор, который вам нравится. Рассчитать процентную разницу можно вручную, через Quick Table Calculations в Tableau или на сайте WPcalc. Вводим первое и последнее числа из объемов — разница налицо: с 2001 по 2019 с 2001 по 2019 объем сбросов в водоемы уменьшился на целых 32%. 

Дальше посмотрим на состав этих загрязняющих веществ (это все тот же файл, что и выше — соседние колонки к общему объему). Нарисуем сразу много линейных графиков, это в некотором смысле будет похоже на спарклайн. 

Спарклайны — очень прикольный тип графиков, позволяющий увидеть много информации на маленьком участке страницы. Назвал их так Эдвард Тафти, американский статистик и известный специалист в области информационного дизайна. Спарклайны рисуются из барчартов или линейных графиков, часто без каких-либо осей. Обычно ими визуализируют значения индексов на биржах.

Рисуем по той же схеме, что и раньше: переносим year в Columns, а дальше поочередно перетаскиваем все типы загрязняющих веществ в Rows. Поменяем название графика. 

 

Добавим только определенные значения на графики — нажмем на нужные нам точки в линейном графике правой кнопкой мыши и выберем Mark labels -> Always show. Повторим это со всеми значениями, которые хотим видеть на графике. Можем выбрать разные цвета на каждое вещество. Слева во вкладке Marks выбираем, цвет чего мы будем менять, нажимаем на Color и выбираем нужный нам цвет.

Дальше уже с полученным графиком мы идем в любой редактор (я снова иду в Numbers) и меняем названия и их ориентацию, а также добавляем процентное изменение. Готово!

Отсюда видим, что объем загрязнений упал по всем типам веществ, кроме нитратов. Где-то спад был больше, например, ртути, жиров и масел, где-то меньше (азота и хлоридов).

Самые «свежие» региональные данные по сбросы загрязненных сточных вод датируются 2016 годом. Здесь данные идут в формате вордовского документа, но их можно легко скопировать в Excel, удалить сумму по округам и РФ и уже рисовать карту. В следующий раз я расскажу подробнее, как это делать, потому что карты с данными заслуживают отдельного и подробного материала, а пока ради интереса к степени загрязненности водоемов в разных регионах России я покажу, что получилось у меня.

Судя по данным, хуже всего жителям Пермского края, там объем выбросов в 2016 году составлял 3,5 млрд кубических метров. Не очень все чисто и в Тюменской области, Санкт-Петербурге, Московской области и Краснодарском крае. Но судя по данным Росстата, общий уровень загрязнений падает, чему нельзя не радоваться. 

Поделиться:
Опубликовано в рубрике UncategorizedTagged , ,

SkillFactory.Рассылка