При анализе данных очень важна наглядность. Чаще всего недостаточно просто собрать что-то и сгруппировать — данные еще нужно показать. А ещё лучше отобразить данные так, чтобы одного взгляда было достаточно для принятия решений.
Как это работает?
Для визуализации данных в Python чаще всего используют библиотеки Matplotlib, Bokeh, pygal, seaborn. А как их использовать, в каком случае и использовать ли вообще, сейчас разберемся.
Подключим библиотеки Matplotlib и seaborn к проекту:
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/carbon-10.png)
Сначала нам нужны данные для экспериментов: я нашла несколько вакансий на должность веб-разработчика в разных странах и взяла предлагаемую зарплату. Получились такие словари:
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/carbon-11-486x1024.png)
Теперь нужно решить что именно мы хотим узнать:
- Какие у нас есть страны и заплаты? (столбчатая диаграмма)
- Какая самая распространенная зарплата для веб-разработчика? (гистограмма или тепловая карта)
- Насколько разные зарплаты предлагают? (диаграмма размаха)
- Как стать веб-разработчиком? (радиальная диаграмма)
1. Столбчатая диаграмма
Столбчатая диаграмма — это как таблица, но для презентаций. У нас есть данные по странам за разные годы, выберем нужный словарь и выведем:
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/carbon-12-1024x443.png)
2. Гистограмма
Гистограмма — один из вариантов столбчатой диаграммы для оценки распределения значений. Можно оценить частоту появления одного значения или наложить несколько для сравнения. Посмотрим распределение зарплат:
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/carbon-13.png)
3. Тепловая карта
Тепловая карта разворачивает гистограмму в другую плоскость. Здесь мы цветом показываем частоту разных значений. Посмотрим количество разработчиков по странам. Точного значения мы не знаем, набросаем случайные числа в csv-файл:
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/carbon-14.png)
Тогда код будет выглядеть так:
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/carbon-15-1024x422.png)
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/image-5.png)
4. Диаграмма размаха
Диаграмма размаха ещё называется «ящик с усами» — смотрим среднее значение и «усами» показываем максимальные отклонения от него. Построим так:
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/carbon-16-1024x423.png)
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/image-6.png)
5. Радиальная диаграмма
Радиальная диаграмма удобна, когда мы хотим сравнить параметры у одной сущности. Например, какие скиллы нужны веб-разработчику:
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/carbon-17-783x1024.png)
![](https://blog.skillfactory.ru/wp-content/uploads/2023/03/image-7.png)
Что делать дальше?
Мы рассмотрели самые простые варианты визуализирования данных, но для некоторых задач этого может быть недостаточно, поэтому:
- Читайте документацию библиотек Maptolib, Bokeh, pygal, seaborn.
- Следите за новыми разработками для визуализации.
- Записывайтесь на курс по Python для анализа данных от SkillFactory.