what_is_data_science

Что такое наука о данных и почему за ней будущее?

Интересный факт: согласно отчёту 2011 года, в 2020 году в мире будет генерироваться в 50 раз больше данных, чем в 2011. Естественно, при таком резком увеличении притока данных появились новые инструменты для обработки и эффективного использования «сырых» массивов данных.

Наука о данных (Data Science) включает в себя все инструменты, методы и технологии, помогающие нам обрабатывать данные и использовать их для нашего блага. Это междисциплинарная смесь статистических выводов, анализа данных, разработки алгоритмов и технологий для решения аналитически сложных задач.

Три основных составляющих Data Science:

  1. Организация данных — хранение и форматирование. Также сюда входят практики управления данными (Data Management).
  2. Агрегация данных — объединение исходных данных в новое представление и/или пакет.
  3. Доставка данных — обеспечение доступа к массивам агрегированных данных.

Наука о данных — обширная и субъективная тема для обсуждения, которую практически невозможно уместить в одну статью. Сама по себе Data Science не самостоятельная наука, а скорее сочетание нескольких смежных дисциплин: математики и статистики, программирования, бизнес-аналитики и стратегического планирования.

На диаграмме Венна, показано, как все дисциплины сочетаются и работают вместе.

data_science_tr

Несколько важных инструментов для работы с данными

data_science_tr

Big Data

Big Data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных, которые позволяют использовать эти данные для решения конкретных задач и достижения целей.

Используя анализ Big Data, розничные продавцы смогут заранее узнать, какие продукты будут хорошо продаваться, телекоммуникационные компании смогут предсказать, захочет ли клиент сменить оператора и когда это произойдёт, а страховые компании смогут оценить, насколько безопасно их клиенты управляют автомобилем. Среди прочего, анализ Big Data позволяет нам лучше понимать и прогнозировать эпидемии болезней и находить самые эффективные способы лечения.

Курс по Machine Learning
Идет набор в группу 3 800₽ в месяц

Машинное Обучение

Цитируя Тома Митчела: Машинное обучения изучает вопрос создания программ, способных улучшаться в процессе обучения.

Машинное Обучение носит междисциплинарный характер и использует, среди прочего, методы из области информатики, статистики и искусственного интеллекта.

Основной областью исследований в Машинном Обучении являются алгоритмы, которые способны обучаться и запоминать и могут применяться в различных областях науки и бизнеса.

DS
Специализация Data Science
Идет набор в группу 12 500₽ в месяц

Data Mining (Сбор и интеллектуальный анализ данных)

Файяд, Пятецкий-Шапиро и Смайт дают следующее определение Data Mining:

«Применение специальных алгоритмов для извлечения шаблонов из данных.

В интеллектуальном анализе данных акцент делается на применение алгоритмов, а не на сами алгоритмы.»

Мы можем определить взаимосвязь машинного обучения и Data Mining следующим образом: интеллектуальный анализ данных — это процесс, в ходе которого алгоритмы МО используются в качестве инструментов для извлечения потенциально ценных шаблонов, содержащихся в наборах данных.

Deep Learning

Deep Learning — относительно новый термин, однако существовавший ещё до резкого роста повышения внимания к науке о данных.

Deep Learning — это процесс применения технологий глубоких нейронных сетей — архитектур нейронных сетей с несколькими скрытыми уровнями — для решения поставленных задач.

По сути это Data Mining, в котором используются архитектуры глубоких нейронных сетей — особого типа алгоритмов машинного обучения.

Искусственный интеллект

Искусственный интеллект — научное направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования тех видов человеческой деятельности, которые традиционно считаются интеллектуальными.

Исследования, связанные с ИИ, высокотехнологичны и узкоспециализированны. Одной из ключевых задач искусственного интеллекта является программирование компьютеров, которые демонстрируют такие способности, как понимание, рассуждение, решение проблем, восприятие, обучение, планирование и т. д.

Основные составляющие ИИ — машинное обучение, инженерия знаний (knowledge engineering) и робототехника.

data_science_tr

Принимая во внимание перечисленные научные области, концепции, и инструменты, мы можем заключить, что Data Science — это наше будущее. Наука о данных изменит мир, и сильно.

перевод: Тимонина Мария

оригинал статьи: What is Data Science and Why It is the future?

Поделиться: