Машинное обучение (Machine Learning) — это прежде всего прикладной инструмент. Он помогает людям в диагностике болезней на ранних этапах, защите клиентов банка от мошенничества, а также управлении сложными производствами. Где применяется ML и в каких сферах может найти себя специалист по машинному обучению, разбираемся с экспертами магистратуры Skillfactory и УрФУ «Инженерия машинного обучения».
Финтех: кредитный скоринг, защита клиентов, поиск мошенников
В финтехе и банках очень много решений сейчас принимается с помощью машинного обучения. Алгоритм помогает, например, решать задачи кредитного скоринга. Обрабатывая данные о клиенте из анкеты и открытых источников, система делает вывод о том, стоит выдавать кредит клиенту или нет. Это помогает менеджерам принимать решения и снижать риски для банка.
Также ML-модели могут отслеживать платежи и находить среди них мошеннические, когда кто-то украл карту клиента и пытается вывести с нее деньги. Машинное обучение помогает банкам искать клиентов в открытых источниках, например в реестрах юрлиц, отслеживать их отток, понимать, что клиент собирается уйти, и дает рекомендации, чтобы его удержать.
Медицина: диагностика болезней на ранней стадии
Диагностика — одно из важных направлений машинного обучения. Сейчас законодательно все устроено так, что поставить пациенту диагноз и назначить лечение может только человек. Все, что разрабатывается в сфере машинного обучения, — это системы помощи врачу.
Чаще всего для анализа при помощи моделей используются медицинские изображения: МРТ, КТ, флюорография. В текстовом анализе, как правило, написано число по определенному параметру (например сахар в крови) и границы допустимых значений. Такой результат может прочитать любой врач, они понимают, что означает выход за границу допустимых значений. С медицинскими изображениями все сложнее. Безусловно, технически мы можем сделать идеальное изображение всего, что у человека есть внутри. Но для этого нужно хорошо просветить тело радиацией, и человеку от этого будет очень плохо. Если же мы делаем изображения, которые не вредят здоровью, то качественную картинку получить невозможно. Она чаще всего зашумленная, и на ней сложно что-либо различить. Чтобы работать с такими изображениями, врачи специально учатся диагностике. К сожалению, специалистов, которые могут читать медицинские изображения, не хватает. Многие больницы сейчас покупают качественное оборудование, но врачей, которые могут интерпретировать результаты, просто нет.
Чем здесь могут помочь системы помощи медицинским специалистам? При помощи алгоритмов компьютерного зрения они анализируют изображение и выделяют области интереса: есть ли на картинке что-то нетипичное, на что стоит обратить внимание. Проанализировав область интереса, модель может определить, например, что на изображении — с высокой вероятностью туберкулез. После этого анализа изображение смотрит врач и подтверждает или опровергает диагноз, отправляет пациента на дообследование. Актуальное направление разработки сейчас — обследования, которые помогают видеть заболевания на ранней стадии развития, когда врач может еще не замечать их на медицинском изображении.
Образование: цифровые лекторы и ассистенты
Образование — пока что неосвоенная сфера для ML, но и здесь есть свои интересные кейсы. Например, сервис Visper от Сбера дает инструменты для онлайн-обучения. Чтобы организовать лекцию, нужно либо подключать студентов онлайн в Zoom, либо записывать уроки. Для этого нужно идти в студию, делать запись, что чаще всего долго и дорого. Visper позволяет сгенерировать цифровой аватар лектора, который озвучит в уроке написанный для него текст. Дальше нужно просто добавить в видео с персонажем презентацию — и онлайн-урок готов.
Также есть интересный американский кейс с участием IBM. Еще до пандемии компания поучаствовала в создании онлайн-курсов. В программе принимали участие много студентов, и у всех в ходе самостоятельной работы возникали дополнительные вопросы. На эти вопросы им отвечали ассистенты. В конце семестра прошло голосование за лучшего ассистента. Больше всего голосов получила Джилл Ватсон — по мнению студентов, она лучше всех отвечала на вопросы. Оказалось, что это был не человек, а суперкомпьютер IBM Watson.
Промышленность: контроль качества
В промышленности очень много данных и очень много задач для алгоритмов: безопасность на производстве, автоматизация, контроль качества продукции. УрФУ недавно участвовал в хакатоне от компании ТМК, которая делает трубы для нефтепроводов. Трубы должны быть качественными, потому что, если их прорвет, это будет экологическая катастрофа. Ущерб от такого происшествия несопоставим со стоимостью трубы, поэтому для ТМК очень важно делать продукт высокого качества.
Вопрос в том, как это качество контролировать. На одном из этапов трубу просвечивают рентгеновским излучением. Снимок позволяет увидеть внутренние дефекты. Чтобы проконтролировать качество, нужен специалист, который будет сидеть и постоянно смотреть на эти изображения. Понятно, что человек не может проводить такой контроль стабильно качественно. Для этого на хакатоне студенты создали прототип системы компьютерного зрения, которая отслеживает дефекты и сообщает о них сотруднику.
Автомобили без водителей
На сегодня в России законодательно разрешен проезд автомобилей без водителя в Москве, Московской области и Татарстане. По Иннополису уже ездят Яндекс.Такси без водителя. Проблема этого направления в том, что цена ошибки тут очень высока. Когда разработчики научатся решать проблемы, беспилотники появятся на улицах всех городов. Я верю, что это наше будущее уже через пять лет.
КАМАЗ занимается разработкой грузовиков без водителя, Россельмаш — беспилотных комбайнов, а Уралмаш начал думать о том, чтобы производить экскаваторы без водителя. Это очень перспективное направление.
Фармакология: проектирование лекарств
Один из последних прорывов машинного обучения в науках о жизни — при помощи нейронных сетей научились определять трехмерную структуру белка. Это упрощает процесс разработки новых лекарств. Например, когда мы расшифровываем геном какого-либо вируса, получаем одномерную последовательность, в то время как в реальности белки трехмерные. Чтобы определить трехмерную структуру генома, требуются длительные, на несколько месяцев эксперименты. А для того чтобы получить одно лекарство, таких экспериментов нужно несколько. Это долго и дорого.
Выяснилось, что при помощи нейросетей можно получить трехмерную структуру белка и определить, будет ли он взаимодействовать с вирусом нужным образом. Такую модель создала компания DeepMind. Для разработки алгоритма AlphaFold создатели использовали информацию о структурах 170 тысяч белков.
Эта разработка позволит быстрее проектировать лекарства и вакцины и с высокой точностью прогнозировать их эффективность.
Информационная безопасность
Как сейчас работают системы обнаружения вторжений? По так называемой сигнатуре атаки: когда вторжение произошло, производители антивирусов изучают, какие действия были произведены. Их записывают в сценарий антивируса: если происходят вот такие действия, то это атака вот такого типа и нужно ее остановить. Но это означает, что нет возможности остановить новые атаки — такие, которые раньше не происходили. Машинное обучение в информбезопасности используется как раз, чтобы обнаруживать атаки нового вида, которых раньше никто никогда не видел.
Информационной безопасности был посвящен недавний хакатон Skillfactory. Данные предоставил сингапурский университет, который собрал уменьшенную копию реального завода по очистке воды. В Сингапуре он снабжает две трети города — если этот завод остановится, все останутся без воды. Задачей было разработать систему, которая может определять вторжения двух видов: виртуальные и атаки на оборудование.
Участники команды УрФУ для решения задачи применяли обучение модели с учителем и без учителя. В первом случае разработчики создали 10 моделей, из которых выбрали и протестировали три эффективные. По итогам экспериментов лучше всего себя показал метод дерева решений, он предсказывал возможность атаки с высокой точностью. Также участники создали модель для поиска аномалий в работе завода, которая находила нетипичные ситуации, — для этого применили нейронную сеть. В итоге решение этой команды оказалось лучшим на хакатоне.
Синергия онлайн-образования и фундаментального университетского подхода — на онлайн-программе от SkillFactory совместно с МИФИ. На программе «Специалист по Data Science» вы изучите науку о данных с преподавателями МИФИ и практикуйтесь на реальных кейсах VK, Danone, devhub и Агентство Инноваций города Москвы. Подойдет абитуриентам без технического образования и глубокого опыта в IT. Эксперты в Data Science помогут вам влиться в новую среду, а специалисты Центра карьеры — найти стажировку и работу в IT.