digest

Дайджест SkillFactory: ТОП-7 статей по Data Science

Предлагаем вам новую подборку материалов по профессиональным тонкостям инженеров данных и Data Scientist. Эти статьи познакомят вас с полезными приемами для работы с данными, научат эффективному кодингу и помогут подготовиться к собеседованию. 

DS
Специализация Data Science
Идет набор в группу 12 500₽ в месяц

Три типа дистанции в Data Science

Как рассчитать расстояние между двумя точками? Ответ на этот вроде бы простой вопрос может оказаться вовсе не очевидным — все зависит от задачи, которая перед вам стоит.

Первый вариант, который сразу приходит на ум — это измерить расстояние, как по линейке. В этом случае  речь идет об евклидовой дистанции. Два объекта располагаются на плоскости, получают координаты, а затем расстояние высчитывается по всем известной формуле Пифагора.

Очевидно, что такой способ не учитывает множество усложнений, которые существуют в реальности. Например, если вы хотите узнать оптимальный путь между точками на городской карте, вам нужно принимать в расчет расположение дорог и кварталов. Для этого вы воспользуетесь так называемой L1-дистанция. Эта метрика учитывает только движение по горизонтали или вертикали, не позволяя срезать углы (в нашем примере это значит, что вы не можете пройти сквозь дом).

Третий важный тип дистанции в Data Science — это метрика Чебышёва, знаменитого академика XIX века, которого ставят в один ряд с Лобачевским. Его метод позволяет измерять расстояние шагами шахматного короля. Как известно, эта фигура может двигаться в любом направлении, но только на одну клетку. Метрика Чебышёва обеспечивает эффективное управление дронами, которые получают возможность задействовать полную мощность своих моторов, двигаясь как прямо, так и по диагонали.

Статья рассматривает применение этих метрик и приводит математические выкладки, которые стоят за каждой из них.

Шесть полезных проектов с открытым кодом

Крупные компании и независимые разработчики нередко выкладывают свои проекты в публичный доступ. Это отличная возможность набраться опыта и заглянуть за кулисы программной разработки.

В этой подборке вы увидите:

  • Фреймворк от nVidia для превращения статичных фото в видео
  • Гибкую модель распознавания лиц
  • Систему распознавания объектов для беспилотных авто
  • NLP-фреймворк Google для обработки текстовых материалов
  • Python-библиотеку для отрисовки графиков, диаграмм и прочих материалов в карандашном стиле
  • Огромную карту знаний, позволяющая оценить возможности графов

Предсказание динамики чаевых с помощью Python

Еще один очень интересный проект, который отлично показывает возможности прогнозных моделей для решения повседневных проблем. В этом случае — для оценки потока чаевых в ресторане.

Автор шаг за шагом проводит нас по всей процедуре подготовки модели. Используя открытые источники, он создает набор данных, в котором объем чаевых оказывается распределен по дням недели, полу посетителей и даже тому, курят они или нет. В таких вещах мелочей не бывает!

Далее он прогоняет эти данные через систему машинного обучения, показывая, как можно управлять разными факторами, чтобы получить разные срезы аналитики. Полученную модель вполне можно использовать для управления кафе, благодаря чему владельцы заведений получат инсайт по доходам своих работников. А для эксперта по науке данных это не только интересный проект по машинному обучению, но и великолепный пример того, как такие технологии находят применение в самых неочевидных жизненных областях.

Как функции-генераторы повышают производительность Python

Генераторы — это очень удобный инструмент Python-разработчика, позволяющий эффективно использовать различные объекты по многу раз. Таким образом вы можете абстрагировать контейнеры или наборы данных, зацикливать функции и решать множество других задач. 

Применение генераторов невероятно ускоряет работу с кодом. В статье приводится пример обработки тяжелого массива данных традиционными методами и с помощью генераторов. Во втором случае программа выполняется в десять раз быстрее и потребляет почти в сто раз меньше памяти. Если вы еще не используете эти функции в своих проектах, обязательно познакомьтесь с этим материалом.

Применение R в Data Science

Язык R получает гораздо меньше славы, чем тот же Python, однако его позиции в науке данных от этого вовсе не слабеют. Как мы уже рассказывали, большинство средних и старших позиций в Data Science предполагают уверенное владение R. Это очень мощный инструмент для работы со статистикой, включающий немало уникальных и полезных возможностей.

Статья объединяет пять преимуществ R, благодаря которым он нередко обходит Python. Это впечатляющий набор библиотек для экономических, финансовых и прочих задач, удобные средства визуализации и построения отчетов, эффективная инфраструктура с поддержкой высокопроизводительных алгоритмов. В материале также упоминаются библиотеки и пакеты, которые снижают порог входа в R для новичков — сложность этого языка до недавнего времени была одним из главных его негативных факторов.

Профессиональный Data Scientist обязательно должен иметь R в своем багаже, так что мы рекомендуем эту статью всем, кто планирует карьеру в науке данных. И тем, кому не хватает возможностей Python для каких-то специфических задач.

Десять ошибок Data Scientist при представлении данных

Значительная часть науки о данных посвящена тому, как дата-сайентист может правильно представить результаты своих изысканий. Это действительно очень важно, ведь в конечном счете смысл Data Science и состоит в том, чтобы найти связь между миром цифр и актуальными проблемами, с которыми к эксперту приходят заказчики. Вне зависимости от того, помогает ли он своим коллегам или консультирует сторонние компании, он должен правильно понять задачу и грамотно представить свое видение ответа.

Поэтому нередко можно услышать, что эксперт по Data Science должен рассказывать истории в цифрах. Как и в литературе, такие истории должны строиться по определенным правилам, иначе читатель заскучает и не уловит основную мысль. Автор следующей статьи рассматривает десять самых частых ошибок, которые мешают дата-сайентисту рассказывать истории. Это и проблемы «словарного запаса», и сюжетные огрехи, и плохой контакт с аудиторией. Материал будет полезен любым аналитикам, которые применяют свои умения, чтобы решать проблемы бизнеса.

100 вопросов и ответов на собеседовании дата-сайентиста 

Этот энциклопедический материал сильно повысит ваши шансы в борьбе за вакансию Data Scientist. Основную часть составляют вопросы технического характера, которые проверяют владение различными программами и решениями, знания технологий статистики, управления большими данными и программирования, понимание тонкостей Python, R и SQL. В статье также указаны общие темы, которые часто всплывают на подобных собеседованиях. Эти вопросы касаются умений работать в команде и решать конфликты, разделять частную и профессиональную жизнь, способности превозмогать трудности и бороться с рутиной. 

Авторы подборки приводят ответы на многие технические вопросы. Другие темы вроде лучшего проекта в карьере, личных целей, любимых программ и решений, указаны для того, чтобы будущий дата-сайентист мог сам над ними поразмышлять и заранее сформировать свое мнение.

Составил: Помогаев Дмитрий

Поделиться:
Опубликовано в рубрике Uncategorized, Наука о данных (Data Science)Tagged ,

SkillFactory.Рассылка