Дата-аналитики работают с терабайтами данных. Их нужно собрать, проанализировать и вывести в виде простых графиков и таблиц. В этом помогают специальные программы и сервисы — рассказываем про них в статье.
Чем занимается Data-аналитик
Дата-аналитик работает с большим количеством данных. Он отвечает за:
- Сбор данных: использует разные источники, например базы данных, результаты опросов, таблицы, сайты в интернете;
- Обработку: заполняет пропуски, исправляет ошибки, группирует и подготавливает данные к дальнейшей работе;
- Анализ: ищет закономерности и тренды, которые помогут решить какую-то проблему или улучшить метрики;
- Прогнозирование: строит статистическую модель, чтобы понять, как ситуация будет развиваться дальше;
- Визуализацию выводов: создает графики, таблицы и диаграммы, чтобы представить информацию в простом и понятном виде.
Для работы с данными дата-аналитик использует разные сервисы и программы.
Инструменты для сбора данных
SQL
Это язык для работы с базами данных. С его помощью можно извлекать информацию, добавлять новые данные, удалять устаревшую информацию, создавать новые таблицы на основе старых и т.д.
SQL полезен при работы с большими объемами информации и является стандартом для большинства СУБД. Самые популярные их них:
- MySQL: позволяет хранить любые данные — контакты, даты, цены, имена, списки товаров и т.д.

- PostgreSQL: более сложная система, подходит для обработки запросов в сфере финансов и промышленности;

- Microsoft SQL Server: предназначена для управления большими объемами данных, поддерживает разные бизнес-приложения, например Oracle ERP или Tableau.
Web-скрейпинг
Часто данные собирают в интернете из открытых источников. Например, можно спарсить сайты конкурентов, чтобы составить список товаров и определить среднюю цену.
Для этого используют библиотеки:
- BeautifulSoup: подходит для простых задач по извлечению данных из статических HTML-страниц;
- Selenium: применяют для работы с динамическим контентом. Может обрабатывать страницы, которые загружаются с помощью JavaScript;
- Scrapy: мощный фреймворк для веб-скрейпинга. Позволяет быстро собрать данные со множества страниц.

ETL-инструменты
Собирать данные можно не только с сайтов, но также баз данных, таблиц, облачных хранилищ. В этом случае используют ETL-инструменты: они извлекают информацию из разных источников и преобразовывают ее в единый формат.
Самые популярные ETL-инструменты:
- Apache Airflow: открытое программное обеспечение для обработки данных. Подходит для разработчиков, которые работают на Python;

- Talend: мощный ETL-инструмент с графическим интерфейсом. Подходит для бизнес-аналитиков без знания языков программирования;

- Pentaho: программа для аналитики данных с инструментами визуализации.

Работа с API
Еще один метод сбора данных — через API. Это набор правил и протоколов, который позволяет одной программе запрашивать данные или выполнять действия в другой.
Сервер, на котором находится API, принимает ваш запрос и обрабатывает его, а потом отправляет ответ в формате JSON или XML. Эти данные вы можете использовать по своему усмотрению, например, отобразить где-то или сохранить для анализа.
Чтобы собрать данные с помощью API, используют эти инструменты:
- Python Requests: библиотека для работы с HTTP-запросами в Python, с ее помощью можно отправлять запросы непосредственно из кода;
- Postman: графический интерфейс для тестирования API. Позволяет отправлять HTTP-запросы, просматривать ответы и тестировать API в удобной визуальной среде.

BI-инструменты анализа данных
Собранные данные нужно обработать, проанализировать и представить в виде графиков и таблиц. Для этого используют BI-инструменты.
Tableau
Аналитическая система для импорта данных из базы и визуализации. Можно делать таблицы, применять к ним фильтры, строить графики. Еще есть инструменты для машинного обучения: регрессия, прогнозирование временных рядов и кластерный анализ.

Power BI
Популярный BI-инструмент для работы с большими массивами данных. В отличие от Tableau имеет бесплатную десктопную версию.
Программа может собирать данные из MySQL, CRM и других источников, а затем составлять простые и понятные дашборды.

Google Data Studio
Бесплатный сервис, в котором можно создавать отчеты, графики, диаграммы и таблицы. Собирать данные можно из разных источников: Google Analytics, CRM (Битрикс24), баз данных, социальных сетей, таблиц Google и др.

Excel и Google Sheets
Небольшие компании используют простые инструменты аналитики, типа Excel и Google Sheets. Там есть:
- Pivot Tables — сводные таблицы. С их помощью можно быстро обобщать и анализировать информацию;
- Формулы — позволяют проводить базовые вычисления: суммировать, считать среднее, делать подсчет ячеек и т.д.;
- VBA — язык программирования, встроенный в Excel. С его помощью можно автоматизировать повторяющиеся задачи и создавать пользовательские функции.
Google Sheets не поддерживает VBA, но для автоматизации задач и создания пользовательских функций можно использовать Google Apps Script, который основан на JavaScript.

Инструменты статистики и предсказательного анализа
На основе собранных данных можно не только делать выводы, но и строить прогнозы на будущее. Например, чтобы понять какой будет выручка в следующем месяце, или сколько нужно закупить товара, чтобы он не пылился на складе. Посчитать это можно с помощью программ, где есть статистический анализ и построение прогнозных моделей.
SPSS
Система аналитики данных от IBM. Чаще всего ее применяют в социальных науках и маркетинге.
Программа имеет простой графический интерфейс, так что работать с ней можно даже без знания языков программирования.

Stata
Программное обеспечение для анализа, управления данными и визуализации. Может обрабатывать большие объемы информации, поэтому ее часто используют в экономике, социологии и политологии. Еще там есть инструменты для регрессионного анализа, поддержка временных рядов и сложных выборок.

SAS Analytics
Мощный статистический инструмент для аналитики в сфере здравоохранения, финансов и маркетинга. Поддерживает языки SAS и SQL, позволяет анализировать большие объемы данных и строить прогнозные модели.

Другие языки программирования
Начинающему data-аналитику достаточно знать язык SQL и научиться пользоваться BI-инструментами. С их помощью можно анализировать данные и создавать визуализации без навыков написания кода.
Однако чтобы иметь больше возможностей для сбора и анализа данных, желательно изучать другие языки программирования.
Python
Это высокоуровневый язык программирования. Его используют для анализа данных, вычислений и машинного обучения. У Python простой синтаксис и много готовых библиотек:
- NumPy: для обработки многомерных массивов данных;
- Pandas: готовые инструменты для фильтрации, группировки и объединения данных;
- Matplotlib: построение гистограмм, диаграмм, тепловых карт и т.д.
Еще можно использовать Jupyter Notebook — это интерактивная среда для разработчиков на Python. Благодаря поддержке различных библиотек, позволяет комбинировать код, текст и визуализации в одном документе. Например, можно написать код, построить промежуточный график и сразу использовать его в презентации.

Также есть Google Colab — это облачная версия приложения. Там можно запускать Python-код в браузере без настройки окружения.
R
Язык программирования, который содержит встроенные статистические инструменты: корреляцию, регрессию, дисперсионный и регрессионный анализ.
Самые популярные пакеты:
- ggplot2: для создания графиков и визуализации данных;
- dplyr: для фильтрации, сортировки и создания сводных таблиц;
- tidyr: для преобразования данных перед анализом и визуализацией.
Еще R можно интегрировать в другие инструменты, например Tableau или Excel.

MatLab
Это высокоуровневый язык программирования. Его используют для импорта и экспорта данных, обработки, статистического анализа, визуализации.
У MATLAB есть встроенные инструменты для машинного обучения. Можно обучать модели, проводить кросс-валидацию и делать предсказания.

Главное про инструменты аналитики
При выборе инструментов бизнес анализа учитывайте поставленную задачу. Некоторые программы подходят только для сбора информации, другие предлагают комплексные решения для статистики и визуализации.
Также важно оценить объем и тип данных. Для масштабных задач потребуются специализированные решения, типа Tableu. Если нужно составить небольшую сводную таблицу, хватит обычного Excel.
Обязательно убедитесь, что выбранные инструменты можно интегрировать с другими системами и источниками, которые вы используете.