Временной ряд

Временной ряд — это упорядоченная последовательность значений какого-либо показателя за несколько периодов времени. Основная характеристика, которая отличает временной ряд от простой выборки данных, — указанное время измерения или номер изменения по порядку.

Пример временного ряда: биржевой курс.

Пример выборки данных: электронные почты клиентов магазина.

Где применяются временные ряды

Временные ряды используются для аналитики и прогнозирования, когда важно определить, что будет происходить с показателями в ближайший час/день/месяц/год: например, сколько пользователей скачают за день мобильное приложение. Показатели для составления временных рядов могут быть не только техническими, но и экономическими, социальными и даже природными.

Прогнозирование временных рядов

Модели ARMA и ARIMA

Они сыграли фундаментальную роль в обработке сигналов связи во время Второй мировой войны. После их начали использовать в анализе временных рядов в 1970 году.

ARMA (Autoregressive Moving Average) — авторегрессионная модель скользящей средней.

ARIMA (Autoregressive Integrated Moving Average) — авторегрессионная интегрированная модель скользящей средней.

AR → Авторегрессионная модель

В ней значения в будущем определяются как значения из прошлого, умноженные на коэффициенты.

I → Интегрированный

Это относится к различным методам вычисления различий между последовательными наблюдениями для получения стационарного процесса из нестационарного.

MA → Модель скользящей средней

Это регрессионная модель, которая использует прошлые ошибки прогноза для прогнозирования интересующей переменной.

Для работы с временными рядами с сезонными компонентами используется SARIMA (интегрированное скользящее среднее сезонной авторегрессии). Это расширение модели ARIMA, добавляющее в нее сезонные условия.

Курс

Data Scientist с нуля

Получите востребованные IT-навыки за один год и станьте перспективным профессионалом. Мы поможем в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

Prophet

Prophet разработан командой Facebook Core Data Science и представляет собой инструмент с открытым исходным кодом для бизнес-прогнозирования. Модель Prophet основана на трех переменных:

g (t) — тренд. Логистическая функция позволяет моделировать рост с насыщением, когда при увеличении показателя снижается темп его роста.

s (t) — сезонность отвечает за моделирование периодических изменений, связанных с недельной и годовой сезонностью.

h (t) — праздники и события. Учитываются аномальные дни, которые не влияют на сезонность.

ε(t) — ошибка. Содержит информацию, которую модель не учитывает.

У Prophet существует больше инструментов для обработки и сортировки данных по сезонности, чем у SARIMA. Такое преимущество позволяет анализировать временные ряды с различной сезонностью — неделей, месяцем, кварталом или годом.

Прогноз по методу экспоненциального сглаживания

Преимущество этого метода — возможность сделать прогноз на длительный период. Математически экспоненциальное сглаживание выражается так:

a (alfa) — коэффициент сглаживания, который принимает значения от 0 до 1. Он определяет, насколько продолжительность изменит существующие значения в базе данных.

x — текущее значение временного ряда (например, объем продаж).

y — сглаженная величина на текущий период.

t — значение тренда за предыдущий период.

Пример экспоненциального сглаживания:

Источник

Голубая линия на графике — это исходные данные, темно-синяя линия представляет экспоненциальное сглаживание временного ряда с коэффициентом сглаживания 0,3, а оранжевая линия использует коэффициент сглаживания 0,05. Чем меньше коэффициент сглаживания, тем более плавным будет временной ряд.

Временные ряды и их характеристики

Предполагается, что временные ряды генерируются регулярно, но на практике это не всегда так. В нерегулярных рядах измерения нельзя провести через одинаковые промежутки времени. Примером нерегулярного временного ряда является пополнение банковской карты.

Типы временных рядов

Помимо регулярности, временные ряды делятся на детерминированные и недетерминированные.

Детерминированный временной ряд — ряд, в котором нет случайных аспектов или показателей: он может быть выражен формулой. Это значит, что мы можем проанализировать, как показатели вели себя в прошлом, и точно прогнозировать их поведение в будущем.

Недетерминированный временной ряд имеет случайный аспект и прогнозирование будущих действий становится сложнее. Природа таких показателей случайна.

Стационарные и нестационарные ряды

Пример визуализации стационарного и нестационарного ряда. Источник

На наблюдение за показателями и их систематизацией влияют тенденции и сезонные эффекты. От этих условий зависит сложность моделирования системы прогнозирования. Временные ряды можно разделить по наличию или отсутствию тенденций и сезонных эффектов на стационарные и нестационарные.

В стационарных временных рядах статистические свойства не зависят от времени, поэтому результат легко предсказать. Большинство статистических методов предполагают, что все временные ряды должны быть стационарными. Пример стационарных временных рядов — рождаемость в России. Конечно, она зависит от множества факторов, но ее спад или рост возможно предсказать: у рождаемости нет ярко выраженной сезонности.

В нестационарных временных рядах статистические свойства меняются со временем. Они показывают сезонные эффекты, тренды и другие структуры, которые зависят от временного показателя. Пример — международные перелеты авиакомпаний. Количество пассажиров на тех или иных направлениях меняется в зависимости от сезонности.

Для классических статистических методов удобнее создавать модели стационарных временных рядов. Если прослеживается четкая тенденция или сезонность во временных рядах, то следует смоделировать эти компоненты и удалить их из наблюдений.

Прогнозирование временных рядов — популярная аналитическая задача, которую используют в разных сферах жизни — бизнесе, науке, исследованиях общества и потребительского поведения. Прогнозы используются для предсказания, например, сколько серверов понадобится онлайн-магазину, когда спрос на товар вырастет.

Курс

Аналитика данных

Освойте необходимые навыки и инструменты и пройдите через все этапы работы над аналитическим проектом. Дополнительная скидка 5% по промокоду BLOG. 

Узнать больше

Другие термины на букву «В»

Верстка

Все термины

Какие курсы вам подходят

Специализация «Аналитик данных»

От 8500 Р/мес

10 мес

Подробнее о курсе

Курс «Data Science»

От 7500 Р/мес

12 мес

Подробнее о курсе

Курс-симулятор «Маркетолог-аналитик»

От 5500 Р/мес

7 мес

Подробнее о курсе
Блог SkillFactory
Добавить комментарий