При анализе данных очень важна наглядность. Чаще всего недостаточно просто собрать что-то и сгруппировать — данные еще нужно показать. А ещё лучше отобразить данные так, чтобы одного взгляда было достаточно для принятия решений.
Как это работает?
Для визуализации данных в Python чаще всего используют библиотеки Matplotlib, Bokeh, pygal, seaborn. А как их использовать, в каком случае и использовать ли вообще, сейчас разберемся.
Подключим библиотеки Matplotlib и seaborn к проекту:
Сначала нам нужны данные для экспериментов: я нашла несколько вакансий на должность веб-разработчика в разных странах и взяла предлагаемую зарплату. Получились такие словари:
Теперь нужно решить что именно мы хотим узнать:
- Какие у нас есть страны и заплаты? (столбчатая диаграмма)
- Какая самая распространенная зарплата для веб-разработчика? (гистограмма или тепловая карта)
- Насколько разные зарплаты предлагают? (диаграмма размаха)
- Как стать веб-разработчиком? (радиальная диаграмма)
1. Столбчатая диаграмма
Столбчатая диаграмма — это как таблица, но для презентаций. У нас есть данные по странам за разные годы, выберем нужный словарь и выведем:
2. Гистограмма
Гистограмма — один из вариантов столбчатой диаграммы для оценки распределения значений. Можно оценить частоту появления одного значения или наложить несколько для сравнения. Посмотрим распределение зарплат:
3. Тепловая карта
Тепловая карта разворачивает гистограмму в другую плоскость. Здесь мы цветом показываем частоту разных значений. Посмотрим количество разработчиков по странам. Точного значения мы не знаем, набросаем случайные числа в csv-файл:
Тогда код будет выглядеть так:
4. Диаграмма размаха
Диаграмма размаха ещё называется «ящик с усами» — смотрим среднее значение и «усами» показываем максимальные отклонения от него. Построим так:
5. Радиальная диаграмма
Радиальная диаграмма удобна, когда мы хотим сравнить параметры у одной сущности. Например, какие скиллы нужны веб-разработчику:
Что делать дальше?
Мы рассмотрели самые простые варианты визуализирования данных, но для некоторых задач этого может быть недостаточно, поэтому:
- Читайте документацию библиотек Maptolib, Bokeh, pygal, seaborn.
- Следите за новыми разработками для визуализации.
- Записывайтесь на курс по Python для анализа данных от SkillFactory.