Баннер мобильный (1) Пройти тест

Data Science

Глоссарий

1 марта 2024

Поделиться

Скопировано

Содержание

    Data Science (наука о данных) — это раздел компьютерной науки, связанный с данными: их сбором, обработкой, анализом и поиском эффективных решений на его основе. Специалистов в этой области называют дата-сайентистами, они работают в науке и в бизнесе.

    Дата-сайентисты собирают неструктурированные данные, анализируют их с помощью математических моделей и делают из них выводы.

    Цели и задачи Data Science — подтверждение гипотез, прогнозирование, нахождение закономерностей, предложения изменений в бизнес-процессах.

    Data Science — это междицсиплинарная область: дата-сайентистам нужно знать математику и статистику, программировать и работать с базами данных, понимать устройство бизнеса.

    Что такое Data Science простыми словами

    У банка есть миллионы пользователей, которые каждый день делают покупки, оплачивая их смартфоном или картами. Данные о покупках можно собрать и проанализировать. Результаты анализа улучшат работу банка, повысят его выручку и дадут клиентам полезные персональные рекомендации. Например, скидки от партнеров частым покупателям спорттоваров или туристическую страховку для тех, кто часто делает покупки за границей.

    Data Science — молодое направление. Впервые термин появился в научной среде в 2001 году, а распространился в 2008 году благодаря ведущим специалистам по данным в компаниях Facebook* и LinkedIn. К тому времени IT-гиганты привлекли к своим продуктам сотни миллионов пользователей и поняли, что большие данные об их поведении могут приносить пользу бизнесу и интернет-индустрии в целом.

    Почти сразу же Data Science обрел статус самого перспективного направления в IT. Еще в 2009 году экономист Google Хэл Вариан заявил, что способности для работы с данными станут чрезвычайно важным навыком в ближайшие десятилетия.

    Как устроена наука о данных?

    data science
    Источник

    Порядок работы с данными в Data Science можно изобразить в виде цикла из пяти этапов:

    1. Сбор. Каждый раз нужно определить объем и структуру данных и собрать их в удобной для обработки форме. Нужно определиться с целями анализа данных и подобрать нужные методы для следующих этапов.
    2. Подготовка. Включает создание архитектуры базы данных и системы их хранения, проверку и очистку от нерелевантных значений (валидацию).
    3. Обработка. На этом этапе проводятся кластеризация и классификация (разделение на выборки и группы), применяются математические модели и программные методы, например машинное обучение.
    4. Анализ. Дата-сайентист изучает результаты моделирования и ищет ответы на изначальные гипотезы, проводит качественный и количественный анализ. Например, находит ошибки в бизнес-процессах или прогнозирует поведение данных в будущем.
    5. Коммуникация. Включает визуализацию данных, создание аналитических отчетов и предложений: какие решения на основе данных можно принять, чтобы бизнес работал эффективнее.

    Профессии, связанные с Data Science

    Помимо дата-сайентистов, есть и другие профессии, связанные с большими данными.

    • Data Engineer — специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам и дата-сайентистам.
    • ML-инженер — инженер в сфере Machine Learning (машинного обучения) — эксперт в области искусственного интеллекта. Он отвечает за «упаковку» модели в готовый продукт.

    У самих дата-сайентистов есть специализации, например Data Mining (глубинный анализ данных), компьютерное зрение, синтез и распознавание речи, системы рекомендаций и т.д.

    Основные термины

    • Big Data (большие данные) — гигантские массивы информации, которую генерируют большие информационные системы, например соцсети и сотовая связь.
    • Математическое моделирование — использование математики и статистики для поиска закономерностей в данных. Например, временные ряды (графики изменения величин во времени) анализируют с помощью регрессионных моделей, которые помогают найти зависимости между переменными.
    • Data Mining (добыча или интеллектуальный анализ данных) — процесс поиска неизвестных ранее закономерностей (паттернов) и полезных знаний в больших базах «сырых» данных. Например, банк имеет базу данных о всех транзакциях клиентов, но ничего не знает о возможных преступниках среди них. Data Mining может помочь найти среди миллионов клиентов тех, кто получает переводы из сомнительных источников.
    • Tree-based-алгоритмыиспользование метода «дерева решений» в Data Mining. Метод классифицирует данные по принадлежности к определенным признакам, пока у каждого блока данных не будет значения по каждому признаку. Например, всех клиентов банка можно классифицировать по полу, возрасту и среднему доходу. Это поможет найти мужчин 18–50 лет с высоким доходом, которым можно предложить скидку на элитный фитнес-центр от партнера.
    • Machine Learning (машинное обучение) — это наука, которая занимается изучением алгоритмов для работы с данными, чтобы автоматизировать в дальнейшем процесс обработки новых данных. Например, зная всех клиентов банка, которые выплатили кредиты и которые не смогли выплатить, мы можем построить такую модель, которая будет решать, каким клиентам стоит выдавать деньги. Такая задача называется задачей классификации.
    • Feature Engineering (конструирование признаков) процесс подготовки необработанных данных для обучения ML-моделей. Чтобы модели было легче обучаться, нужно выделить из данных новые признаки, например добавить новый признак клиенту на основе усреднения суммы его покупок (средний чек).
    • Deep Learning (глубокое обучение) — метод машинного обучения с использованием сложных многослойных нейронных сетей.

    Python — основной язык программирования в Data Science. Для удобства работы на Python применяют библиотеки, например NumPy, Scipy, Pandas. Для машинного обучения часто используют фреймворк sklearn.

    Где применяется наука о данных

    Прогнозирование спроса

    Компании имеют большие массивы данных о продажах своих товаров и услуг за прошлые годы. Анализ этих данных с помощью Machine Learning поможет найти закономерности, спрогнозировать будущий спрос и перестроить бизнес-процессы под нужное количество товаров и услуг.

    Пример: эта модель помогает производителям натурального газа прогнозировать его поставки.

    Система рекомендаций

    Интернет-сервисы имеют данные о просмотрах каждым пользователем их контента: видео, фильмов, музыки, статей или страниц товаров и услуг. Машинное обучение может проанализировать предпочтения, чтобы предлагать им наиболее подходящий контент.

    Пример: модель RealStateRecommender предлагает посетителям сайта с недвижимостью пять лучших предложений на основе их поисковых запросов. Она использует алгоритмы кластеризации запросов — то есть объединяет данные в однородные группы.

    Динамическое ценообразование

    В интернет-торговле и системах бронирования есть данные о продажах разных товаров и услуг разным категориям покупателей. Data Science помогает найти оптимальные цены на свои товары и услуги, которые помогут увеличить выручку.

    Пример: модель динамического ценообразования в отелях.

    Поиск аномалий

    Data Science помогает компаниям находить ошибки в данных бизнес-процессов и отчетности. Это помогает вовремя заметить неточности и аномальные изменения данных, понять их причину и изменить работу компании.

    Пример: модель fin-stmt-anom находит ошибки в бухгалтерских документах перед подачей отчетности.

    Чат-боты

    Обучение чат-ботов с помощью машинного обучения помогает быстрее и точнее отвечать на вопросы клиентов. Это помогает решить большинство их проблем и снизить нагрузку на колл-центр.

    Пример: модель машинного обучения LegalTech помогает юридическим компаниям оценивать длительность дел и стоимость услуг и получать подтверждения об этапах работы от клиента через Telegram-бота.

    Будущее Data Science

    У Data Science большие перспективы, и вот почему:

    Экспоненциальный рост объема данных в мире

    Люди проводят все больше времени в интернете, бизнес диджитализируется, начинает развиваться интернет вещей (IoT). К 2025 году объем данных в мире увеличится почти в 3 раза, до 181 Зеттабайта (секстилиона байтов). Еще в 2010 году в мире было всего 2 Зб.

    Рост рынка Data Science

    Гигантские объемы данных ведут к росту количества Data Science-стартапов и вакансий специалистов по анализу данных. По прогнозам, до 2027 года рынок будет в среднем расти на 27% в год. Больше всего решений требуется в маркетинге и рекламе, логистике, финансах и поддержке пользователей.

    Развитие технологий искусственного интеллекта

    Эксперты утверждают, что в ближайшем будущем на улицах городов массово появятся беспилотные автомобили, а домашняя техника будет подключена к интернету вещей (IoT). Автономные автомобили используют машинное обучение для анализа дорожной ситуации и безопасного передвижения. IoT позволит получать данные миллиардов новых устройств и использовать искусственный интеллект в системах «умного дома».

    Все это ведет к повышению спроса на дата-сайентистов. Так, количество вакансий в этой сфере в России за три года выросло на 433%. Спрос на специалистов превышает предложение, а это увеличивает их зарплату: junior data scientist после года обучения в среднем получает от 120 тыс. рублей, а после трех лет опыта — от 250 тыс. рублей.

    С чего начать обучение Data Science самостоятельно

    Научиться основам Data Science с нуля можно примерно за год. Для этого нужно освоить несколько направлений.

    Python. Из-за простого синтаксиса этот язык идеально подходит для новичков. Со знанием Python можно работать и в других IT-областях, например веб-разработке и даже гейм-дизайне. Для работы нужно также освоить инструменты Data Science, например Scikit-Learn, которые упрощают написание кода на Python.

    Математика. Со знанием Python уже можно работать ML-инженером. Но для полного цикла Data Science нужно уметь работать с математическими моделями, чтобы анализировать данные. Для этого изучают линейную алгебру, матанализ, статистику и теорию вероятностей. Также математика нужна, чтобы понимать, как устроен алгоритм, и уметь подобрать правильные параметры для задачи.

    Машинное обучение. Используйте знания Python и математики для создания и тренировки ML-моделей. Код для моделей и наборы данных для обучения (датасеты) можно найти, например, на сайте Kaggle. Подробнее о том, зачем дата-сайентисту Kaggle, читайте в статье.

    Визуальный анализ данных (EDA) отвечает на вопросы о том, что происходит внутри данных, позволяет найти выбросы в них и получить инсайты про создание уникальных фичей для будущего алгоритма.

    Вот несколько полезных ссылок для новичков:

    Книги:

    «Изучаем Python», Марк Лутц.

    «Python и машинное обучение. Машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow», Себастьян Рашка, Вахид Мирджалили.

    «Теория вероятностей и математическая статистика», Н. Ш. Кремер.

    «Курс математического анализа» Л. Д. Кудрявцев.

    «Линейная алгебра», В. А. Ильин, Э. Г. Позняк.

    Курсы:

    Питонтьютор — бесплатный практический курс Python в браузере.

    Фреймворки, модели и датасеты

    Основные библиотеки: NumPy, Scipy, Pandas.

    Библиотеки для машинного и глубокого обучения: Scikit-Learn, TensorFlow, Theano, Keras.

    Инструменты визуализации: Matplotlib и Seaborn.

    Статья на хабре со ссылками на модели из разных сфер бизнеса на GitHub.

    Список нужных фреймворков, библиотек, книг и курсов по машинному обучению на GitHub.

    Kaggle — база моделей и датасетов, открытые соревнования дата-сайентистов и курсы по машинному обучению.

    Дата-сайентистом можно стать и без опыта в этой сфере. За 13 месяцев на курсе по Data Science вы изучите основы программирования и анализа данных на Python, научитесь выгружать нужные данные с помощью SQL и делать анализ данных с помощью библиотек Pandas и NumPy, разберетесь в основах машинного обучения. После обучения у вас будет 8 проектов для портфолио.

    * Принадлежит компании Meta, деятельность которой признана экстремистской в России.

    Поделиться

    Скопировано

    0 комментариев

    Комментарии