Data Science (наука о данных) — это раздел компьютерной науки, связанный с данными: их сбором, обработкой, анализом и поиском эффективных решений на его основе. Специалистов в этой области называют дата-сайентистами, они работают в науке и в бизнесе.
Дата-сайентисты собирают неструктурированные данные, анализируют их с помощью математических моделей и делают из них выводы.
Цели и задачи Data Science — подтверждение гипотез, прогнозирование, нахождение закономерностей, предложения изменений в бизнес-процессах.
Data Science — это междицсиплинарная область: дата-сайентистам нужно знать математику и статистику, программировать и работать с базами данных, понимать устройство бизнеса.
Что такое Data Science простыми словами
У банка есть миллионы пользователей, которые каждый день делают покупки, оплачивая их смартфоном или картами. Данные о покупках можно собрать и проанализировать. Результаты анализа улучшат работу банка, повысят его выручку и дадут клиентам полезные персональные рекомендации. Например, скидки от партнеров частым покупателям спорттоваров или туристическую страховку для тех, кто часто делает покупки за границей.
Data Science — молодое направление. Впервые термин появился в научной среде в 2001 году, а распространился в 2008 году благодаря ведущим специалистам по данным в компаниях Facebook* и LinkedIn. К тому времени IT-гиганты привлекли к своим продуктам сотни миллионов пользователей и поняли, что большие данные об их поведении могут приносить пользу бизнесу и интернет-индустрии в целом.
Почти сразу же Data Science обрел статус самого перспективного направления в IT. Еще в 2009 году экономист Google Хэл Вариан заявил, что способности для работы с данными станут чрезвычайно важным навыком в ближайшие десятилетия.
Как устроена наука о данных?
Порядок работы с данными в Data Science можно изобразить в виде цикла из пяти этапов:
- Сбор. Каждый раз нужно определить объем и структуру данных и собрать их в удобной для обработки форме. Нужно определиться с целями анализа данных и подобрать нужные методы для следующих этапов.
- Подготовка. Включает создание архитектуры базы данных и системы их хранения, проверку и очистку от нерелевантных значений (валидацию).
- Обработка. На этом этапе проводятся кластеризация и классификация (разделение на выборки и группы), применяются математические модели и программные методы, например машинное обучение.
- Анализ. Дата-сайентист изучает результаты моделирования и ищет ответы на изначальные гипотезы, проводит качественный и количественный анализ. Например, находит ошибки в бизнес-процессах или прогнозирует поведение данных в будущем.
- Коммуникация. Включает визуализацию данных, создание аналитических отчетов и предложений: какие решения на основе данных можно принять, чтобы бизнес работал эффективнее.
Профессии, связанные с Data Science
Помимо дата-сайентистов, есть и другие профессии, связанные с большими данными.
- Data Engineer — специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам и дата-сайентистам.
- ML-инженер — инженер в сфере Machine Learning (машинного обучения) — эксперт в области искусственного интеллекта. Он отвечает за «упаковку» модели в готовый продукт.
У самих дата-сайентистов есть специализации, например Data Mining (глубинный анализ данных), компьютерное зрение, синтез и распознавание речи, системы рекомендаций и т.д.
Основные термины
- Big Data (большие данные) — гигантские массивы информации, которую генерируют большие информационные системы, например соцсети и сотовая связь.
- Математическое моделирование — использование математики и статистики для поиска закономерностей в данных. Например, временные ряды (графики изменения величин во времени) анализируют с помощью регрессионных моделей, которые помогают найти зависимости между переменными.
- Data Mining (добыча или интеллектуальный анализ данных) — процесс поиска неизвестных ранее закономерностей (паттернов) и полезных знаний в больших базах «сырых» данных. Например, банк имеет базу данных о всех транзакциях клиентов, но ничего не знает о возможных преступниках среди них. Data Mining может помочь найти среди миллионов клиентов тех, кто получает переводы из сомнительных источников.
- Tree-based-алгоритмы — использование метода «дерева решений» в Data Mining. Метод классифицирует данные по принадлежности к определенным признакам, пока у каждого блока данных не будет значения по каждому признаку. Например, всех клиентов банка можно классифицировать по полу, возрасту и среднему доходу. Это поможет найти мужчин 18–50 лет с высоким доходом, которым можно предложить скидку на элитный фитнес-центр от партнера.
- Machine Learning (машинное обучение) — это наука, которая занимается изучением алгоритмов для работы с данными, чтобы автоматизировать в дальнейшем процесс обработки новых данных. Например, зная всех клиентов банка, которые выплатили кредиты и которые не смогли выплатить, мы можем построить такую модель, которая будет решать, каким клиентам стоит выдавать деньги. Такая задача называется задачей классификации.
- Feature Engineering (конструирование признаков) — процесс подготовки необработанных данных для обучения ML-моделей. Чтобы модели было легче обучаться, нужно выделить из данных новые признаки, например добавить новый признак клиенту на основе усреднения суммы его покупок (средний чек).
- Deep Learning (глубокое обучение) — метод машинного обучения с использованием сложных многослойных нейронных сетей.
Python — основной язык программирования в Data Science. Для удобства работы на Python применяют библиотеки, например NumPy, Scipy, Pandas. Для машинного обучения часто используют фреймворк sklearn.
Где применяется наука о данных
Прогнозирование спроса
Компании имеют большие массивы данных о продажах своих товаров и услуг за прошлые годы. Анализ этих данных с помощью Machine Learning поможет найти закономерности, спрогнозировать будущий спрос и перестроить бизнес-процессы под нужное количество товаров и услуг.
Пример: эта модель помогает производителям натурального газа прогнозировать его поставки.
Система рекомендаций
Интернет-сервисы имеют данные о просмотрах каждым пользователем их контента: видео, фильмов, музыки, статей или страниц товаров и услуг. Машинное обучение может проанализировать предпочтения, чтобы предлагать им наиболее подходящий контент.
Пример: модель RealStateRecommender предлагает посетителям сайта с недвижимостью пять лучших предложений на основе их поисковых запросов. Она использует алгоритмы кластеризации запросов — то есть объединяет данные в однородные группы.
Динамическое ценообразование
В интернет-торговле и системах бронирования есть данные о продажах разных товаров и услуг разным категориям покупателей. Data Science помогает найти оптимальные цены на свои товары и услуги, которые помогут увеличить выручку.
Пример: модель динамического ценообразования в отелях.
Поиск аномалий
Data Science помогает компаниям находить ошибки в данных бизнес-процессов и отчетности. Это помогает вовремя заметить неточности и аномальные изменения данных, понять их причину и изменить работу компании.
Пример: модель fin-stmt-anom находит ошибки в бухгалтерских документах перед подачей отчетности.
Чат-боты
Обучение чат-ботов с помощью машинного обучения помогает быстрее и точнее отвечать на вопросы клиентов. Это помогает решить большинство их проблем и снизить нагрузку на колл-центр.
Пример: модель машинного обучения LegalTech помогает юридическим компаниям оценивать длительность дел и стоимость услуг и получать подтверждения об этапах работы от клиента через Telegram-бота.
Будущее Data Science
У Data Science большие перспективы, и вот почему:
Экспоненциальный рост объема данных в мире
Люди проводят все больше времени в интернете, бизнес диджитализируется, начинает развиваться интернет вещей (IoT). К 2025 году объем данных в мире увеличится почти в 3 раза, до 181 Зеттабайта (секстилиона байтов). Еще в 2010 году в мире было всего 2 Зб.
Рост рынка Data Science
Гигантские объемы данных ведут к росту количества Data Science-стартапов и вакансий специалистов по анализу данных. По прогнозам, до 2027 года рынок будет в среднем расти на 27% в год. Больше всего решений требуется в маркетинге и рекламе, логистике, финансах и поддержке пользователей.
Развитие технологий искусственного интеллекта
Эксперты утверждают, что в ближайшем будущем на улицах городов массово появятся беспилотные автомобили, а домашняя техника будет подключена к интернету вещей (IoT). Автономные автомобили используют машинное обучение для анализа дорожной ситуации и безопасного передвижения. IoT позволит получать данные миллиардов новых устройств и использовать искусственный интеллект в системах «умного дома».
Все это ведет к повышению спроса на дата-сайентистов. Так, количество вакансий в этой сфере в России за три года выросло на 433%. Спрос на специалистов превышает предложение, а это увеличивает их зарплату: junior data scientist после года обучения в среднем получает от 120 тыс. рублей, а после трех лет опыта — от 250 тыс. рублей.
С чего начать обучение Data Science самостоятельно
Научиться основам Data Science с нуля можно примерно за год. Для этого нужно освоить несколько направлений.
Python. Из-за простого синтаксиса этот язык идеально подходит для новичков. Со знанием Python можно работать и в других IT-областях, например веб-разработке и даже гейм-дизайне. Для работы нужно также освоить инструменты Data Science, например Scikit-Learn, которые упрощают написание кода на Python.
Математика. Со знанием Python уже можно работать ML-инженером. Но для полного цикла Data Science нужно уметь работать с математическими моделями, чтобы анализировать данные. Для этого изучают линейную алгебру, матанализ, статистику и теорию вероятностей. Также математика нужна, чтобы понимать, как устроен алгоритм, и уметь подобрать правильные параметры для задачи.
Машинное обучение. Используйте знания Python и математики для создания и тренировки ML-моделей. Код для моделей и наборы данных для обучения (датасеты) можно найти, например, на сайте Kaggle. Подробнее о том, зачем дата-сайентисту Kaggle, читайте в статье.
Визуальный анализ данных (EDA) отвечает на вопросы о том, что происходит внутри данных, позволяет найти выбросы в них и получить инсайты про создание уникальных фичей для будущего алгоритма.
Вот несколько полезных ссылок для новичков:
Книги:
«Изучаем Python», Марк Лутц.
«Python и машинное обучение. Машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow», Себастьян Рашка, Вахид Мирджалили.
«Теория вероятностей и математическая статистика», Н. Ш. Кремер.
«Курс математического анализа» Л. Д. Кудрявцев.
«Линейная алгебра», В. А. Ильин, Э. Г. Позняк.
Курсы:
Питонтьютор — бесплатный практический курс Python в браузере.
Фреймворки, модели и датасеты
Основные библиотеки: NumPy, Scipy, Pandas.
Библиотеки для машинного и глубокого обучения: Scikit-Learn, TensorFlow, Theano, Keras.
Инструменты визуализации: Matplotlib и Seaborn.
Статья на хабре со ссылками на модели из разных сфер бизнеса на GitHub.
Список нужных фреймворков, библиотек, книг и курсов по машинному обучению на GitHub.
Kaggle — база моделей и датасетов, открытые соревнования дата-сайентистов и курсы по машинному обучению.
Дата-сайентистом можно стать и без опыта в этой сфере. За 13 месяцев на курсе по Data Science вы изучите основы программирования и анализа данных на Python, научитесь выгружать нужные данные с помощью SQL и делать анализ данных с помощью библиотек Pandas и NumPy, разберетесь в основах машинного обучения. После обучения у вас будет 8 проектов для портфолио.
* Принадлежит компании Meta, деятельность которой признана экстремистской в России.
0 комментариев