Непризнанные герои data science

Почему пренебрежительное отношение к аналитикам выйдет вам боком

Будьте осторожнее с тем, какие профессиональные навыки вы приоритезируйте в ущерб другим — неразумно расставленные приоритеты могут иметь огромные негативные последствия, такие как необоснованный найм и откровенно плохой менеджмент. Но вдобавок к этому, вы рискуете увидеть как настоящие герои начнут уходить из индустрии, вынужденные переучиваться на кого-то, кто будет лучше соответствовать сегодняшним требованиям. И аналитика — это яркий пример этого явления.

partfolio_ds
Специализация Аналитик Данных
Идет набор в группу 6 900₽ в месяц

В поисках идеального сотрудника

Full-stack data scientist, владеющий навыками машинного обучения, статистики и аналитики одновременно — это мечта для любого бизнеса, имеющего дело с data science, но найти такого практически невозможно, и это неудивительно. И когда у компаний не получается заполучить специалиста «три в одном», они переключаются на попытки переманить к себе сотрудников с наиболее впечатляющим опытом в одной из этих областей. Но в какой именно? 

Сейчас в data science в моде нарочитая сложность с щепоткой научной фантастики, что делает искусственный интеллект и машинное обучение самыми желанными навыками для найма. Следом идут статистики, популярность которых поддерживает многовековая репутация строгости и математического превосходства. Но что насчет аналитиков?

Аналитика — гражданка второго сорта

Если ваши основные навыки лежат в области аналитики (а также data-mining, или бизнес-аналитики), то, скорее всего, ваша уверенность в себе страдает от того, что ваши коллеги из вышеупомянутых областей обходят вас по карьерной лестнице, а рынок труда делает не очень тонкие намеки, что вам стоит пересмотреть свою специализацию, чтобы присоединиться к ним в карьерном росте.

Для непосвященного достаточно сложно понять, что эти три профессии полностью отличаются друг от друга. Они могут использовать одни и те же уравнения, но на этом сходство заканчивается. Аналитика — это далеко не “недоделанная” версия других специальностей. Хорошие аналитики необходимы для того, чтобы удостовериться в эффективности ваших начинаний в области data science. Если из команды уйдут все аналитики, то успех проекта окажется под угрозой. И это именно то, что они сделают, если их продолжат недооценивать.

Одинаково достойны

Вместо того, чтобы просить аналитиков развивать свои навыки статистики или машинного обучения, сначала подумайте о том, как поощрить их к совершенствованию внутри своей дисциплины. Data science — это область, в которой превосходные навыки в одной области лучше, чем посредственные в двух.

При наличии опыта, специалисты из всех трех областей одинаково достойны уважения, но их работа совершенно разного толка. Чтобы лучше понять различия между ними, давайте разберемся, каких высот можно достичь в каждой специальности, какую выгоду может получить проект от таких навыков, и какие черты характера помогут выжить в этой профессии.

DS
Специализация Data Science
Идет набор в группу 12 500₽ в месяц

Эксперт в области статистики: строгость

Будучи специалистами, способными с уверенностью делать глобальные выводы на основе имеющихся данных, статистики — это ваша лучшая защита от совершения ошибок в мире, полном неопределенности. Для них допустить небрежность в умозаключениях — это больший грех, чем не сделать выводов вовсе, поэтому не удивляйтесь тому, что хороший статистик притормозит темпы работы, несмотря на весь энтузиазм команды. Будучи осторожными, они всегда беспокоятся подходят ли применяемые методы для решения стоящей проблемы, и мучаются в попытках понять какой вывод на основе имеющейся информации будет наиболее верен.

Большинство людей не осознают, что статистики по сути своей являются эпистемологами. Поскольку нет волшебного средства, которое превратило бы неопределенность в определенность, их роль заключается не в создании некоторой истины, а в разумном сопоставлении приемлемых предположений с доступной информацией.

Что мы имеем в результате? Обоснованную позицию, которая поможет принимать важные бизнес-решения и контролировать риски.

Неудивительно, что многие статистики остро реагируют на «выскочек», которые зазубривают уравнения, не углубляясь в философию. Если работа со статистиками кажется вам утомительной, вот быстрое решение этой проблемы: просто не делайте никаких выводов о чем-либо, что находится за пределами имеющихся у вас данных, и вам не понадобятся их услуги. (Легче сказать, чем сделать, верно? Особенно, если вы хотите принять важное решение о, например, начале нового проекта.)

Эксперт в области машинного обучения: производительность

Возможно, вы инженер по прикладному машинному обучению или искусственному интеллекту, если на «Могу поспорить, что вы не сможете построить модель, которая пройдет тестирование с точностью 99,9999%» вы ответите: «Посмотрим,» и приметесь за работу. 

Специалисты по машинному обучению обладают умением создавать прототипы и производственные системы, которые работают, а также усидчивостью и упрямостью, чтобы биться над задачей на протяжении нескольких лет, если это необходимо. Они знают, что идеального решения не найти в учебнике. Вместо учебников у ML-инженеров — метод проб и ошибок. В этой области интуиция в отношении того сколько уйдет время на тестировании той или иной опции — это огромный плюс, и порой бывает ценнее, чем глубокое понимание того, как работают алгоритмы (хотя, конечно, хорошо иметь и то, и другое).

“Заработает, куда денется,” -Инженер

В итоге работы такого эксперта мы получим систему, которая автоматизирует какой-то хитрый процесс достаточно хорошо, чтобы пройти строгую оценку статистиков, и которая показывает достойную производительность, соответствующую запросам бизнеса.

В этом случае производительность — это не только обозначение некоторой метрики, но и надежность, масштабируемость и простота в обслуживании моделей, которые хорошо работают в реальном производстве. Здесь без отточенных технических навыков никак.

Вширь или вглубь?

Роли статистика и специалиста по машинному обучению объединяет общая цель: найти решение конкретной сложной задачи. Если проблемы, которые они пытаются решить, не стоят затраченных усилий, то вы тратите впустую их время и свои деньги. Предприниматели часто жалуются на то, что их отдел data science бесполезен, но проблема обычно заключается в отсутствии экспертных знаний в области аналитики.

Статистики и инженеры по машинному обучению — это специалисты в узких и глубоких областях (которые похожи на кроличьи норы), поэтому очень важно указать им на проблемы, которые заслуживают решения и вложения сил. Если ваши эксперты будут тщательно решать не те проблемы, то ваши инвестиции в data science не принесут прибыли. Чтобы использовать таких “узких и глубоких” специалистов эффективно, вам нужно либо быть уверенным, что у вас уже есть подходящая проблема, либо вам нужен иной — широкий и поверхностный — подход к ее поиску.

Эксперт в области аналитики: скорость

Лучшими аналитиками являются программисты, которые могут молниеносно просматривать огромные наборы данных, обнаруживая и выявляя потенциальные варианты применения этих данных за время, которого другим специалистам хватило бы только на то, чтобы сказать “вайтборд”. Их небрежный стиль программирования может поставить в тупик традиционных инженеров-программистов… пока они не останутся далеко позади, глотая пыль. Скорость — это самая важная характеристика в этой области, за которой следует способность не упустить ничего, что может потенциально принести пользу. Умение визуализировать информацию тоже помогает ускорить работу: качественно сделанные графики позволяют быстрее воспринять информацию, оставляя больше времени для генерации идей.

Там, где статистики и ML-инженеры могут быть медлительны, аналитики похожи на вихрь, вдохновляющий своими выкладками руководство и других data science коллег.

В результате у бизнеса появляется возможность держать руку на пульсе и постоянно отслеживать ранее неизвестные возможности. Аналитики готовят почву для принятия решений, позволяя выбирать ценные задачи для статистиков и специалистов по машинному обучению, оберегая их от бессмысленной растраты сил на рытье бесполезных кроличьих нор.

Бессмыслица или блестящее повествование?

«Но, — возражают статистики, — большинство их так называемых идей — бессмыслица». Под этим они подразумевают, что результаты исследований аналитиков могут отражать только зашумленность данных. Возможно, но это еще не все.

Аналитики — это еще и хорошие рассказчики. Их задача состоит в том, чтобы обобщить интересные факты, но при этом соблюдать осторожность и помнить, что любая романтическая идея, возникшая в порыве вдохновения, не должна восприниматься всерьез без поддержки со стороны статистики.

Хорошие аналитики неуклонно следуют одному золотому правилу своей профессии: не делать выводов о чем-то, что лежит за пределами имеющихся данных (и не позволяйте вашей аудитории делать это). К сожалению, относительно немногие люди в этой области являются в этом смысле настоящими аналитиками. Поэтому будьте осторожны: вокруг полно шарлатанов, изображающих из себя специалистов в области data science. Они несут чушь, бесконтрольно прыгая между существующими данными и воображаемыми, принимая желаемое за действительное, чтобы поддержать свою историю. Если ваши стандарты в области этики не слишком высоки, то возможно, вам стоит держать этих шарлатанов под рукой, применив их выдающиеся способности в темных искусствах маркетинга. Но лично я бы предпочла не делать этого.

Пока аналитики придерживаются фактов (“Вот что мы имеем здесь”. Но что это значит? “Только то, что это здесь есть”) и не относятся к себе слишком серьезно, худшее преступление, которое они могут совершить — это потратить чье-то время на обсуждение возникшей идеи. Из следования своему золотому правилу хорошие аналитики используют уклончивые выражения (например, не «мы можем сделать вывод», а «это побуждает к дальнейшему размышлению») и охлаждают пыл владельцев бизнеса броситься в авантюру, подчеркивая множество возможных интерпретаций имеющихся данных.

В то время как статистические навыки необходимы для проверки гипотез, аналитики — ваш лучший инструмент для того, чтобы сначала выдвинуть эти гипотезы. Например, они могут сказать что-то вроде «Это всего лишь корреляция, но я подозреваю, что это может быть вызвано…», а затем объяснить, почему они так думают.

Для подобной работы требуется сильная интуиция касательно того, что может происходить за пределами имеющихся данных, а также отличные коммуникационные навыки, чтобы убедить в своем видении людей, которые в итоге будут принимать решение какая именно гипотеза (из многих) достаточно важна, чтобы оправдать усилия статистиков. По мере того, как аналитики набираются опыта, они начинают понимать что является не только интересным, но и важным, позволяя руководящим лицам отойти от роли посредника.

Поскольку знание конкретной индустрии помогает находить интересные тенденции в данных быстрее, лучшие аналитики серьезно относятся к ознакомлению с предметной областью. Неспособность сделать это — это красный флаг для нанимателя. По мере того, как любопытство подталкивает аналитиков к пониманию бизнеса, результаты их работы переходят из состояния путаницы, полной ошибочных выводов, в структурированный набор разумных идей, что делает принятие стратегических решений значительно проще.

Чтобы избежать напрасной траты времени, аналитики должны взять историю, которую им хочется рассказать, и рассмотреть ее с нескольких сторон, проверяя выдерживает ли эта идея критику, прежде чем передавать ее руководству. Если под вопрос ставится принятие какого-то важного решения, основанного на вдохновляющей истории аналитика, то это громкий сигнал вызова для статистиков, которым следует подхватить эту идею и проверить (на новых данных, естественно), что такое действие является верным выбором в свете предположений, которые будут звучать разумно для руководства, а также их склонности к риску.

Гибрид между аналитиком и статистиком

Для аналитиков, придерживающихся фактов, нет такой вещи как “неправильно”, есть только “медленно”. И попытка добавить аналитику навыки в области статистики только для того, чтобы «делать все правильно» не имеет смысла, хотя бы потому, что между предварительным анализом данных и последующими строгими статистическими выкладками существует важный фильтр: лицо, принимающее решения. Кто-то несущий ответственность должен оценить насколько дальнейшая разработка идеи оправдана с точки зрения бизнеса и стоит ли она времени экспертов. Так что если такой гибрид между аналитиком и статистиком не является одновременно человеком, принимающим решения, то  его набор навыков превращается в этакий бутерброд с дырой посередине.

Однако аналитики, которые могут заполнить и этот разрыв, ценятся на вес золота. Берегите их!

Аналитика для машинного обучения и ИИ

Специалисты по машинному обучению прогоняют множество входных данных через алгоритмы, настраивают параметры и продолжают выполнять итерации, пока не будут получены правильные результаты. Хотя может показаться, что аналитика здесь не играет никакой роли, на практике в бизнесе на вход приходит слишком разных потенциальных “ингредиентов”, чтобы бездумно пихать их все вместе в алгоритмический блендер.

Один из способов отфильтровать ненужное из огромного количества данных — это воспользоваться чьим-то опытом в предметной области и спросить их мнение о том, как все это может работать. Другой способ — это аналитика. Если использовать аналогию с кулинарией, то инженеры по машинному обучению отлично разбираются во всем, что находится на кухне, но оказавшись перед огромным темным складом, полным потенциальных ингредиентов, им не слишком понятно что с этим делать. Они либо могут начать беспорядочно хватать все, что попадется под руку, и тащить на кухню, либо они могут сначала отправить сбегать на этот склад кого-то, вооруженного фонариком. Ваш аналитик — это как раз такой бегун; их способность помочь вам увидеть и быстро понять то, что происходит вокруг — это невероятный бизнес-ресурс.

Гибрид между аналитиком и специалистом по машинному обучению

Аналитики ускоряют проекты по машинному обучению, поэтому такие гибридные навыки могут быть очень полезными. Но, к сожалению, из-за различий в стиле программирования и подходах между аналитикой и проектированием ML, достаточно редко можно увидеть внушительный опыт в обеих областях у одного человека (еще реже встречаются разве что специалисты, которые ко всему этому могут еще и превращаться при необходимости в неспешных философов, поэтому full-stack data scientist — это практически мифический зверь).

Опасные последствия пренебрежительного отношения

Эксперт-аналитик — это не некачественная подделка, которую пытаются выдать за специалиста по машинному обучению, их стиль программирования намеренно оптимизирован для скорости. Они не “плохие статистики” — аналитики не имеют дело с неопределенностью, они имеют дело с фактами. «Вот что мы можем увидеть в наших данных, предполагать что происходит за их пределами — это не моя работа, но, возможно, на основе моих результатов можно будет поставить задачу для статистиков…»

Новичкам в этой области сложно понять, что аналитику необходимо иметь лучшее понимание математики, лежащей в основе data science, чем требуется от профессионалов в других прикладных направлениях. Если задача не достаточно сложна, чтобы требовалось придумать новый тест для проверки гипотезы или алгоритм (что является работой для исследователей), от статистиков и специалистов по машинному обучению часто требуется только удостовериться, что существующие решения и тесты подходят для решения задачи, а не работать с самими уравнениями.

Например, статистики могут забыть уравнения для вычисления p-значения для t-теста, потому что получат это значение, запустив нужную программу, но никогда не забудут как и когда его использовать, а также как верно интерпретировать результаты. Аналитики же не хотят интерпретировать. Они пытаются увидеть форму огромного многомерного набора данных. Зная, как уравнение для p-значения разделяет их набор данных, они могут мыслить в обратном направлении, пытаясь представить какие тенденции должны быть в исходном наборе данных, чтобы в итоге вычислений получилось имеющееся число. Без понимания математики стоящей за этими процессами вы не получите такого представления. В отличие от статистиков, им все равно, подходит ли t-критерий для данных. Их заботит только то, даст t-тест ли им полезную идею о том, что происходит в текущем наборе данных. Тонкое различие, но оно важно.

В конечном итоге обе специальности тесно связаны с математикой и часто используют одни и те же уравнения, но их задачи совершенно разные.

Точно так же аналитики часто используют алгоритмы машинного обучения, чтобы разделить данные, определить возможные варианты их группирования или исследовать аномалии. Поскольку целью аналитиков является не производительность, а идеи, их подход отличается от привычного специалистам по машинному обучению и может показаться небрежным. Но опять же, это использование одного и того же инструмента для разной работы.

Все это можно просуммировать такой аналогией: скрепки используются и хирургами, и портными, и офисными работниками. Но это не означает, что их работа одинакова или даже сопоставима. И было бы опасно требовать, чтобы все портные и офисные работники начали тренироваться в хирургических вмешательствах для продвижения по карьерной лестнице.

Если вы сделаете слишком сильный акцент на найме и поощрении специалистов в области машинного обучения и статистики, вы потеряете своих аналитиков. Кто тогда поможет вам понять, какие задачи стоит решать? Вы останетесь с группой несчастных экспертов, которых будут постоянно дергать ради работы над бесполезными проектами и заставлять выступать в роли аналитиков, на что они, в общем-то, не подписывались. Ваши данные будут лежать мертвым грузом, не принося никакой пользы.

Правила ухода за исследователями

И если все вышесказанное звучало не так уж плохо, то ситуация становится еще сложнее, когда руководители слишком активно ударяются в исследования и найм людей с научными степенями, вместо людей с прикладными знаниями статистики и машинного обучения, не имея при этом задач, которые были бы достаточно важными, и которые при этом не имели бы решения с использованием существующих алгоритмов.

И это неплохо, но только если вы целенаправленно инвестируете в исследовательский отдел и не планируете постоянно спрашивать этих сотрудников о том, что полезного они сделали для вас за последнее время. Исследования ради исследований — это инвестиции с высокой степенью риска, и очень немногие компании могут себе это позволить, просто потому что вполне возможно, что вы не получите из этого ничего ценного.

Необходимость в исследователях вне пределов исследовательского отдела существует только если у вас есть для них соответствующие задачи. Их специализация — создание новых алгоритмов и тестов с нуля, когда не существует готового решения. В противном случае это сизифов труд (и это будет ваша вина, а не их). Исследователи, как правило, тратят больше десяти лет на обучение, что заслуживает  уважения и, по крайней мере, того, чтобы их не заставляли работать над задачами, которые совершенно не относятся к их специальности.

Так что правильное время для найма исследователей для прикладного проекта, как правило, наступает только после того, как ваши аналитики помогли вам обнаружить важную задачу, а ваши прикладные специалисты не смогли ее решить существующими методами. И вот тогда в игру вступают профессиональные исследователи.

Мораль

Если у вас есть сомнения, то наймите аналитиков прежде чем нанимать людей на другие роли. Цените их и поощряйте их. Более того, поощряйте их совершенствоваться в выбранной ими карьере (а не чьей-то другой). Из всех ролей, упомянутых в этой истории, любой бизнес обязательно нуждается только в руководящих лицах, принимающих решения, и аналитиках. Специалистов из других областей вы сможете эффективно использовать только тогда, когда точно будете знать для чего они вам нужны. Начните с аналитиков и гордитесь своей новообретенной супер-способностью видеть и воспринимать все многообразие информации вокруг вас. Важность идей, которые могут родиться в результате этого — это не что-то, от чего можно отмахнуться.

Изображение, принадлежащее VICKI JAURON, BABYLON AND BEYOND PHOTOGRAPHY/GETTY IMAGES, которое было использовано в статье Harvard Business Review. Моя любимая интерпретация этой фотографии: человек — это владелец бизнеса, отгоняющий стаи аналитиков в попытках поймать людей с новомодными профессиями.

Если вам понравилась эта статья, то прочитайте и мой гайд по миру data science.

Оригинал: Data Science’s Most Misunderstood Hero

Перевод: Ухарова Елена

Поделиться: