Баннер мобильный (3) Пройти тест

Все о разведочном анализе данных (EDA): цели, инструменты и методы 

Зачем нужен разведочный анализ данных и как его проводить

Разбор

12 апреля 2024

Поделиться

Скопировано
Все о разведочном анализе данных (EDA): цели, инструменты и методы 

Содержание

    Разведочный анализ данных, или Exploratory Data Analysis (EDA), — это первый взгляд на неизведанную местность через бинокль. Вы пытаетесь сориентироваться и определить, куда двигаться дальше. 

    В мире данных EDA помогает аналитикам и исследователям понять, с чем они имеют дело, выявляя основные характеристики, интересные закономерности и потенциальные аномалии в наборе данных.

    Что такое EDA

    В основе разведочного анализа лежит идея о том, что, прежде чем строить сложные модели или делать окончательные выводы, нужно тщательно изучить данные. Это включает в себя визуализацию, статистический анализ, проверку предположений и формулировку гипотез на основе наблюдаемых закономерностей. 

    EDA — это диалог аналитика с данными, в ходе которого специалист задает вопросы и ищет ответы в самой структуре и содержании данных.

    Разберем этот процесс на примере. Представьте, что вы впервые пришли в большой и неизвестный вам город. Ваша задача — понять, как он устроен, где находятся основные достопримечательности, какие районы стоит посетить, а каких лучше избегать. Разведочный анализ данных очень похож на этот процесс. 

    Зачем нужен разведочный анализ данных 

    EDA — это фундамент работы с данными. Он не только обеспечивает понимание всей необходимой информации, но и выявляет возможные препятствия на пути к получению значимых выводов. 

    EDA нужен:

    • для понимания данных: прежде чем принимать решения или строить модели, важно понять, что представляют собой ваши данные, каковы их основные характеристики и структура;
    • очистки данных: EDA помогает выявить ошибки и аномалии в данных, которые могут исказить анализ, например пропущенные значения или выбросы;
    • формулировки гипотез: на основе наблюдаемых закономерностей можно сформулировать гипотезы для дальнейшего тестирования в процессе аналитической работы;
    • выбора моделей: понимание данных позволяет выбрать наиболее подходящие статистические модели и методы анализа.
    Аксинья Чумаченко
    Тимлид продуктовой аналитики в Simpals

    Разведочный анализ данных (EDA) применяется во множестве сфер, где данные могут предоставить ценные знания и инсайты.

    EDA используют для анализа финансовых данных, включая цены акций, поведение потребителей и тренды рынка. Компании финтех-сектора используют EDA, чтобы понимать предпочтения и поведение клиентов, выявлять потенциальное мошенничество и принимать обоснованные бизнес-решения.

    В электронной коммерции EDA применяют для анализа транзакционных данных и поведения клиентов. Это помогает определить наиболее успешные продукты и фичи, понять предпочтения клиентов.

    В маркетинге EDA используют для анализа данных о клиентах, таких как демографические данные, история покупок и поведение. Это способствует сегментации рынка, пониманию предпочтений клиентов и совершенствованию маркетинговых стратегий. Также EDA задействуют для анализа данных социальных медиа, таких как поведение пользователей и тенденции. Это помогает понять предпочтения пользователей и улучшить стратегии в социальных сетях.

    С помощью EDA анализируют данные о производстве, включая работу оборудования, контроль качества и управление запасами. Это помогает выявлять неэффективность, улучшать производственные процессы и снижать затраты.

    Инструменты и методы EDA

    Визуализация данных

    Через графические изображения и диаграммы визуализация открывает возможность увидеть закономерности, динамику и связи между данными. 

    Например, диаграмма рассеяния — это график, в котором каждая точка представляет собой отдельное наблюдение и показывает взаимосвязь между двумя переменными. Такая инфографика помогает специалистам выявить зависимость или корреляцию между переменными.

    Диаграмма рассеяния
    Пример диаграммы рассеяния. Источник

    Гистограмма — график, на котором каждая точка представляет собой отдельное наблюдение и показывает взаимосвязь между двумя переменными. Гистограмма помогает понять, насколько часто значения попадают в определенные диапазоны, выявляет пики или провалы в данных.

    Гистограмма
    Пример гистограммы. Источник

    «Ящик с усами»‎ или box plot представляет собой графическое отображение статистических параметров распределения данных, включая медиану, квартили и аномальные значения. Этот инструмент позволяет эффективно анализировать вариативность и симметричность данных.

    Ящик с усами
    Пример графика «Ящик с усами»‎. Источник

    Статистический анализ

    Помогает количественно оценить основные характеристики данных:

    • Среднее значение (Mean) вычисляется как общая сумма всех чисел в наборе, поделенная на их количество, и отражает «среднюю» точку.
    • Медиана (Median) — среднее значение двух средних значений, если их количество четное, или среднее значение самого центрального числа, если количество нечетное. 
    • Мода (Mode) указывает на число, которое появляется в наборе данных чаще всего, и может служить показателем наиболее обычного или типичного значения в этом наборе.

    Тепловые карты (heatmap)

    Тепловая карта отображает данные в виде цветной матрицы, где разные цвета указывают на связь между разными элементами. Это упрощает нахождение закономерностей и взаимозависимостей в обширных данных.

    Тепловая карта
    Пример тепловой карты. Источник 

    Корреляционный анализ

    Анализ корреляции выявляет связи между переменными и их силу. Коэффициент корреляции показывает, насколько одна переменная линейно связана с другой:

    • При положительной корреляции обе переменные изменяются в одном направлении и коэффициент находится между 0 и 1.
    • При отрицательной корреляции переменные движутся в противоположных направлениях и коэффициент лежит между 0 и –1.
    • Если корреляция нулевая, это значит, что между переменными нет линейной связи и коэффициент близок к 0.

    Преобразование данных (стандартизация и нормализация)

    Преобразование данных включает в себя корректировку масштаба или формы распределения переменных для их адаптации к аналитическим и моделирующим процедурам. Это существенная часть разведочного анализа данных (EDA). Она показывает сопоставимость переменных и способствует формированию данных, пригодных для анализа и толкования.

    • При нормализации значения переменных изменяются таким образом, что они располагаются в промежутке от 0 до 1, что особенно ценно для переменных с различными единицами измерения или масштабами.
    • Стандартизация же приводит значения переменных к форме, где их среднее значение становится 0, а стандартное отклонение –1, делая распределение данных более единообразным и сбалансированным.

    Анализ аномалий и выбросов

    Этот процесс помогает находить значения данных, которые существенно отличаются от остальных наблюдений. Аномалии возникают из-за ошибок, случайных событий или указывают на особенности исследуемого явления.
    Ключевые этапы обработки выбросов и аномалий включают:

    • визуальный анализ: применяйте графические методы, например диаграммы «Ящик с усами» или точечные, для наглядного обнаружения потенциальных аномалий;
    • статистическую проверку: определяйте аномальные значения с помощью статистических инструментов, основываясь на критериях и оценках исследования;
    • выбор стратегии: определите, как поступить с аномалиями — исключить их, скорректировать или оставить без изменений, в зависимости от контекста и целей исследования.

    Коротко о том, что такое разведочный анализ данных

    Все это звучит сложно. Однако давайте вернемся к нашему примеру и сравним EDA с изучением нового для нас города.

    Карта города = визуализация данных. Так же как вы используете карту для ориентации в городе, в EDA вы используете визуализации (графики, диаграммы), чтобы лучше понять распределение и взаимосвязи данных.

    Прогулка по городу = исследование данных. Передвигаясь по городу, вы обращаете внимание на архитектуру, людей и общую атмосферу. В EDA вы «прогуливаетесь» по данным, исследуя их характеристики, ищете закономерности и аномалии.

    Разговоры с местными = проверка гипотез. Взаимодействуя с местными жителями, вы можете узнать больше о городе и проверить свои предположения. В EDA гипотезы проверяются с помощью собранной статистики. 

    Разведочный анализ критически важен для глубокого понимания данных, выявления ключевых тенденций и подготовки информации к дальнейшему анализу. В процессе EDA ценится не только технический подход к анализу, но и интуитивное восприятие данных и их контекста.

    Узнать о программах высшего образования в Skillfactory для аналитиков и дата-сайентистов, а также подготовиться к поступлению можно, подписавшись на наш Telegram-канал.

    Разбор

    Поделиться

    Скопировано
    0 комментариев
    Комментарии