Data Science

Data Science (наука о данных) — это раздел компьютерной науки, связанный с данными: их сбором, обработкой, анализом и поиском эффективных решений на его основе. Специалистов в этой области называют дата-сайентистами, они работают в науке и в бизнесе.

Дата-сайентисты собирают неструктурированные данные, анализируют их с помощью математических моделей и делают из них выводы. Цели и задачи Data Science: подтверждение гипотез, прогнозирование, нахождение закономерностей, предложения изменений в бизнес-процессах.

Data Science — это междицсиплинарная область: дата-сайентистам нужно знать математику и статистику, программировать и работать с базами данных, понимать устройство бизнеса.

Что такое Data Science простыми словами: У банка есть миллионы пользователей, которые каждый день делают покупки, оплачивая их смартфоном или картами. Данные о покупках можно собрать и проанализировать. Результаты анализа улучшат работу банка, повысят его выручку и дадут клиентам полезные персональные рекомендации. Например, скидки от партнеров частым покупателям спорттоваров или туристическую страховку для тех, кто часто делает покупки за границей.

Data Science — молодое направление. Впервые термин появился в научной среде в 2001 году, а распространился в 2008 году благодаря ведущим специалистам по данным в компаниях Facebook и LinkedIn. К тому времени IT-гиганты привлекли к своим продуктам сотни миллионов пользователей и поняли, что большие данные об их поведении могут приносить пользу бизнесу и интернет-индустрии в целом.

Почти сразу же Data Science обрел статус самого перспективного направления в IT. Еще в 2009 году экономист Google Хэл Вариан заявил, что способности для работы с данными станут чрезвычайно важным навыком в ближайшие десятилетия.

Так и происходит: мировой рынок компаний, занимающихся Data Science, растет в среднем на 12% в год. Только в 2020 году спрос на специалистов этого направления вырос на 50%.

Как устроена наука о данных?

Источник

Порядок работы с данными в Data Science можно изобразить в виде цикла из пяти этапов:

  1. Сбор. Каждый раз нужно определить объем и структуру данных и собрать их в удобной для обработки форме. Нужно определиться с целями анализа данных и подобрать нужные методы для следующих этапов.
  2. Подготовка. Включает создание архитектуры базы данных и системы их хранения, проверку и очистку от нерелевантных значений (валидацию).
  3. Обработка. На этом этапе проводятся кластеризация и классификация (разделение на выборки и группы), применяются математические модели и программные методы, например машинное обучение.
  4. Анализ. Дата-сайентист изучает результаты моделирования и ищет ответы на изначальные гипотезы, проводит качественный и количественный анализ. Например, находит ошибки в бизнес-процессах или прогнозирует поведение данных в будущем.
  5. Коммуникация. Включает визуализацию данных, создание аналитических отчетов и предложений: какие решения на основе данных можно принять, чтобы бизнес работал эффективнее.

Профессии, связанные с Data Science

Помимо дата-сайентистов, есть и другие профессии, связанные с большими данными.

  • Data Engineer — специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам и дата-сайентистам.
  • ML-инженер — инженер в сфере Machine Learning (машинного обучения) — эксперт в области искусственного интеллекта. Он отвечает за «упаковку» модели в готовый продукт.

У самих дата-сайентистов есть специализации, например Data Mining (глубинный анализ данных), компьютерное зрение, синтез и распознавание речи, системы рекомендаций и т.д.

Курс

Data Science с нуля

За 12 месяцев вы пополните портфолио рекомендательной системой и нейросетями, примете участие в соревнованиях на Kaggle и в хакатонах. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

Основные термины

Big Data (большие данные) — гигантские массивы информации, которую генерируют большие информационные системы, например соцсети и сотовая связь.

Математическое моделирование — использование математики и статистики для поиска закономерностей в данных. Например, временные ряды (графики изменения величин во времени) анализируют с помощью регрессионных моделей, которые помогают найти зависимости между переменными.

Data Mining (добыча или интеллектуальный анализ данных) — процесс поиска неизвестных ранее закономерностей (паттернов) и полезных знаний в больших базах «сырых» данных. Например, банк имеет базу данных о всех транзакциях клиентов, но ничего не знает о возможных преступниках среди них. Data Mining может помочь найти среди миллионов клиентов тех, кто получает переводы из сомнительных источников.

Tree-based-алгоритмы — использование метода «дерева решений» в Data Mining. Метод классифицирует данные по принадлежности к определенным признакам, пока у каждого блока данных не будет значения по каждому признаку. Например, всех клиентов банка можно классифицировать по полу, возрасту и среднему доходу. Это поможет найти мужчин 18–50 лет с высоким доходом, которым можно предложить скидку на элитный фитнес-центр от партнера.

Machine Learning (машинное обучение) — это наука, которая занимается изучением алгоритмов для работы с данными, чтобы автоматизировать в дальнейшем процесс обработки новых данных. Например, зная всех клиентов банка, которые выплатили кредиты и которые не смогли выплатить, мы можем построить такую модель, которая будет решать, каким клиентам стоит выдавать деньги. Такая задача называется задачей классификации.

Feature Engineering (конструирование признаков) процесс подготовки необработанных данных для обучения ML-моделей. Чтобы модели было легче обучаться, нужно выделить из данных новые признаки, например добавить новый признак клиенту на основе усреднения суммы его покупок (средний чек).

Deep Learning (глубокое обучение) — метод машинного обучения с использованием сложных многослойных нейронных сетей.

Python — основной язык программирования в Data Science. Для удобства работы на Python применяют библиотеки, например NumPy, Scipy, Pandas. Для машинного обучения часто используют фреймворк sklearn.

Где применяется наука о данных

Прогнозирование спроса

Компании имеют большие массивы данных о продажах своих товаров и услуг за прошлые годы. Анализ этих данных с помощью Machine Learning поможет найти закономерности, спрогнозировать будущий спрос и перестроить бизнес-процессы под нужное количество товаров и услуг.

Пример: эта модель помогает производителям натурального газа прогнозировать его поставки.

Система рекомендаций

Интернет-сервисы имеют данные о просмотрах каждым пользователем их контента: видео, фильмов, музыки, статей или страниц товаров и услуг. Машинное обучение может проанализировать предпочтения, чтобы предлагать им наиболее подходящий контент.

Пример: модель RealStateRecommender предлагает посетителям сайта с недвижимостью пять лучших предложений на основе их поисковых запросов. Она использует алгоритмы кластеризации запросов — то есть объединяет данные в однородные группы.

Динамическое ценообразование

В интернет-торговле и системах бронирования есть данные о продажах разных товаров и услуг разным категориям покупателей. Data Science помогает найти оптимальные цены на свои товары и услуги, которые помогут увеличить выручку.

Пример: модель динамического ценообразования в отелях.

Поиск аномалий

Data Science помогает компаниям находить ошибки в данных бизнес-процессов и отчетности. Это помогает вовремя заметить неточности и аномальные изменения данных, понять их причину и изменить работу компании.

Пример: модель fin-stmt-anom находит ошибки в бухгалтерских документах перед подачей отчетности.

Чат-боты

Обучение чат-ботов с помощью машинного обучения помогает быстрее и точнее отвечать на вопросы клиентов. Это помогает решить большинство их проблем и снизить нагрузку на колл-центр.

Пример: модель машинного обучения LegalTech помогает юридическим компаниям оценивать длительность дел и стоимость услуг и получать подтверждения об этапах работы от клиента через Telegram-бота.

Будущее Data Science

У Data Science большие перспективы, и вот почему:

Экспоненциальный рост объема данных в мире

Люди проводят все больше времени в интернете, бизнес диджитализируется, начинает развиваться интернет вещей (IoT). К 2025 году объем данных в мире увеличится почти в 3 раза, до 181 Зеттабайта (секстилиона байтов). Еще в 2010 году в мире было всего 2 Зб.

Читайте также: Big Data: что это и где применяется?

Рост рынка Data Science

Гигантские объемы данных ведут к росту количества Data Science-стартапов и вакансий специалистов по анализу данных. По прогнозам, до 2027 года рынок будет в среднем расти на 27% в год. Больше всего решений требуется в маркетинге и рекламе, логистике, финансах и поддержке пользователей.

Развитие технологий искусственного интеллекта

Эксперты утверждают, что в ближайшем будущем на улицах городов массово появятся беспилотные автомобили, а домашняя техника будет подключена к интернету вещей (IoT). Автономные автомобили используют машинное обучение для анализа дорожной ситуации и безопасного передвижения. IoT позволит получать данные миллиардов новых устройств и использовать искусственный интеллект в системах «умного дома».

Все это ведет к повышению спроса на дата-сайентистов. Так, количество вакансий в этой сфере в России за три года выросло на 433%. Спрос на специалистов превышает предложение, а это увеличивает их зарплату: junior data scientist после года обучения в среднем получает от 120 тыс. рублей, а после трех лет опыта — от 250 тыс. рублей.

Курс

Data Scientist

Специалисты Data Science нужны во всех сферах бизнеса — получите востребованную профессию и станьте одним из них. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

С чего начать обучение Data Science самостоятельно

Научиться основам Data Science с нуля можно примерно за год. Для этого нужно освоить несколько направлений.

Python. Из-за простого синтаксиса этот язык идеально подходит для новичков. Со знанием Python можно работать и в других IT-областях, например веб-разработке и даже гейм-дизайне. Для работы нужно также освоить инструменты Data Science, например Scikit-Learn, которые упрощают написание кода на Python.

Математика. Со знанием Python уже можно работать ML-инженером. Но для полного цикла Data Science нужно уметь работать с математическими моделями, чтобы анализировать данные. Для этого изучают линейную алгебру, матанализ, статистику и теорию вероятностей. Также математика нужна, чтобы понимать, как устроен алгоритм, и уметь подобрать правильные параметры для задачи.

Машинное обучение. Используйте знания Python и математики для создания и тренировки ML-моделей. Код для моделей и наборы данных для обучения (датасеты) можно найти, например, на сайте Kaggle. Подробнее о том, зачем дата-сайентисту Kaggle, читайте в статье.

Визуальный анализ данных (EDA) отвечает на вопросы о том, что происходит внутри данных, позволяет найти выбросы в них и получить инсайты про создание уникальных фичей для будущего алгоритма.

Вот несколько полезных ссылок для новичков:

Книги:

«Изучаем Python», Марк Лутц.

«Python и машинное обучение. Машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow», Себастьян Рашка, Вахид Мирджалили.

«Теория вероятностей и математическая статистика», Н. Ш. Кремер.

«Курс математического анализа» Л. Д. Кудрявцев.

«Линейная алгебра», В. А. Ильин, Э. Г. Позняк.

Курсы:

Питонтьютор — бесплатный практический курс Python в браузере.

Бесплатный курс по Python от Mail.ru и МФТИ на Coursera.

Модуль по визуализации данных из курса Mail.ru и МФТИ.

Фреймворки, модели и датасеты

Основные библиотеки: NumPy, Scipy, Pandas.

Библиотеки для машинного и глубокого обучения: Scikit-Learn, TensorFlow, Theano, Keras.

Инструменты визуализации: Matplotlib и Seaborn.

Статья на хабре со ссылками на модели из разных сфер бизнеса на GitHub.

Список нужных фреймворков, библиотек, книг и курсов по машинному обучению на GitHub.

Kaggle — база моделей и датасетов, открытые соревнования дата-сайентистов и курсы по машинному обучению.

Дата-сайентистом можно стать и без опыта в этой сфере. За 13 месяцев на курсе по Data Science вы изучите основы программирования и анализа данных на Python, научитесь выгружать нужные данные с помощью SQL и делать анализ данных с помощью библиотек Pandas и NumPy, разберетесь в основах машинного обучения. После обучения у вас будет 8 проектов для портфолио.

Курс

Data Science с нуля

Станьте востребованным специалистом на рынке IT! За 13 месяцев вы получите набор компетенций, необходимый для уровня Junior.

  • структуры данных Python для проектирования алгоритмов;
  • как получать данные из веб-источников или по API;
  • методы матанализа, линейной алгебры, статистики и теории вероятности для обработки данных;
  • и многое другое.

Узнать больше

Промокод “BLOG10” +5% скидки

Другие термины на букву «D»

Data Driven-подход
Deep Learning
DOM

Все термины

(рейтинг: 0, голосов: 0)
Добавить комментарий