Data Science в медицине: как данные и алгоритмы спасают жизни

И чем помогают студенты Skillfactory

Кейс

10 апреля 2025

Скопировано

Data Science в медицине: как данные и алгоритмы спасают жизни

Содержание

В отчете Stanford Medicine за 2018 год упоминается, что к 2026 году искусственный интеллект поможет сэкономить на здравоохранении 150 миллиардов долларов. И это только в США. Насколько такой прогноз реалистичен и как технологии Data Science помогают уже сегодня — расскажем в статье.

Как Data Science может продвинуть медицину на годы вперед

Алгоритмы машинного обучения (ML) и искусственного интеллекта (AI) могут извлекать и анализировать огромные массивы данных в короткие сроки.

Ускорить разработку лекарств

Фармацевтика — это, в частности, бизнес. Вывод любого лекарства на рынок — существенные траты времени и денег. Только треть лекарственных препаратов, выпущенных в России за последние пять лет, была финансово выгодна производителям.

От двух до десяти лет может уйти на поиск молекулярной основы, еще до 15 — на доклинические испытания. Те, которые провоцируют возмущения защитников прав животных и серьезные этические дебаты.

В исследовании Forbes 2013 года стоимость выпуска препаратов на рынок оценивалась в 350 млн–5,5 млрд долларов. Цифры внушительные, и Data Science может существенно сократить и время, и цену разработки. Это подтверждает кейс с халицином.

Обычно «в конкурсе» на молекулярную основу препарата участвует несколько тысяч химических соединений. В «финал» выходят 1,5-2,5% молекул. В 2019 году поиском заветной фарм-«жемчужины» занялся искусственный интеллект: в библиотеке данных из 6 тыс. соединений, AI нашел одну, подходящую под все критерии.

Молекулу назвали халицином. В честь модели искусственного интеллекта HAL 9000 из фильма «Космическая одиссея 2001» Стэнли Кубрика.

формула халицина, найденная AI — Химическая структура халицина

Халицин — первый новый антибиотик за последние 30 лет. На его поиск у «машины» ушло несколько часов. Хитрость в том, что алгоритмы пошли неожиданным путем и не искали соединения, похожие на действующие антибиотики.

AI-система предложила бороться с бактериями веществом, которое в прошлом веке выявили для лечения диабета. Тогда современный халицин показал себя не очень эффективно, и про него забыли на годы. Но скрыться от алгоритмов не просто.

На этомиспытания не остановили: алгоритмы машинного обучения приняли новый вызов и отсканировали еще 100 млн молекул. В итоге удалось найти 23 кандидата в антибиотики нового века, восемь из них уничтожали бактерии и в лабораторных исследованиях.

Главное — на поиски понадобилось всего три дня. То есть в 243 раза меньше, чем в лучшем случае ушло бы на ручной поиск. И, вероятно, экономия времени может сделать разработку лекарств более выгодной, а, значит, более масштабной.

Усовершенствовать диагностику

Статистика не для мнительных: каждый 18-й диагноз в отделениях неотложной помощи США — неверный. При этом одна из 50 «жертв» неправильной диагностики сталкивается с серьезными последствиями, а в одном из 350 случаев цена ошибки — инвалидность или смерть.

Сложнее всего удается диагностировать инсульт: его пропускают в 17% случаев неверной диагностики. Причина — неспецифические или атипичные симптомы.

В России, по официальным данным, с серьезными последствиями врачебных ошибок сталкиваются 70 тыс. россиян в год. К сожалению, некоторые специалисты склонны считать, что в реальности все хуже. Но даже 70 тыс. — чудовищная цена неверных диагнозов.

Дело не в халатности. Когда в отделение неотложной помощи поступает пациент в тяжелом состоянии, быстро поставить диагноз не всегда возможно. На результаты анализов, КТ, УЗИ нужно время.

Также ошибки, когда общая картина состояния больного очень далека от приведенной в стандартных классификациях. Даже опытный врач не может держать в голове все описанные случаи инсульта, кори или конкретной опухоли, и зацепиться при нетипичных жалобах пациента не за что.

Оперативная память компьютера ограничена меньше человеческой — создание огромных баз данных с симптомами и клинической картиной болезней может снизить неточность диагнозов. Найти совпадения нетипичного случая с уже задокументированными в библиотеке и успеть выдать результат, пока не поздно,— посильная задача для алгоритмов.

Время особенно ценно в случаях с онкологией. Обнаружить опухоль на ранней стадии в большинстве случаев = сохранить жизнь. За последние четыре года смертность от рака в России снизилась на 4,6%: увеличилось количество скринингов и выявлений на I и II стадиях болезни.

Технологии ML и компьютерного зрения сейчас обучаются и успешно ищут патологии на снимках рентгена, МРТ, КТ, флюорографии и маммографии. Например, эксперимент с внедрением второго мнения от IT-«мозга» проходит в Москве: компьютерные «глаза» проанализировали более 1,6 млн изображений только в 2023 году.

Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США (FDA) уже одобрило 238 медицинских проектов на базе AI.

Статистика AI систем в медицине — Статистика одобренных FDA Al-систем. Источник

Технологии активно анализируют состояние мозга, печени, легких, артерий, серд ца, колен, зубов, сетчатки глаз и других органов и систем организма. И иногда превосходят человека: в 2020 году AI-алгоритмы «соревновались» с радиологами в точности определения рака молочной железы по маммографии. Победила машина.

Повысить эффективность прогнозирования

Усилия по обучению алгоритмов могут помочь диагностировать опасные заболевания до появления симптомов. Например, во время профилактических скринингов и диспансеризаций, а также при выявлении групп риска. Технологии способны снизить нагрузку на врачей и подстраховать там, где глаза человека могут не заметить патологии.

Модели ML и AI способны находить в базах больших данных закономерности, связывающие риски проявления болезней с особенностями анамнеза пациентов. В одном эксперименте алгоритмы предсказывали риск смерти от сердечно-сосудистых заболеваний 11 430 участникам.

Результаты многообещающие: искусственный интеллект снова справился не хуже, чем классический метод, требующий сбора широкого анамнеза и детальной диагностики. Система нуждается в доработке, но в будущем такие технологии помогут составлять программы профилактики и предупреждения людей из группы риска.

Какие еще кейсы Data Science интегрированы в медицину

Умные часы

Стэнфордские ученые выяснили, что наручные часы способны предупреждать хозяев о признаках анемии, инфекции и обезвоживания. Для этого алгоритмы в девайсе анализируют частоту сердечных сокращений, количество шагов, температуру и количество пота. Часы не поставят диагноз, но помогут вовремя обратиться к врачу.

Системы мониторинга заболеваний

Канадский стартап BlueDot использует платформу, построенную на основе искусственного интеллекта, машинного обучения и больших данных, для отслеживания и прогнозирования вспышек и распространения инфекционных заболеваний. 30 декабря 2019 года он зафиксировал аномальную вспышку пневмонии. Совсем скоро мир узнал, что такое Covid-19. Но в канун 2020 года о смертоносном заболевании получили предсказание лишь частные клиенты маленького стартапа в Торонто.

BlueDot забил тревогу раньше медиков и точно определил первые 11 городов, в которые пришел коронавирус после китайского Уханя. Система строила предположения на анализе передвижений путешественников и глобальных данных покупки авиабилетов. Распространение таких алгоритмов в будущем может помочь человечеству оперативно реагировать на угрозы мирового здравоохранения.

Виртуальные домашние диагносты

Чат-бот Buoy Health выслушивает симптомы и направляет пользователя к нужному специалисту. Домашнее решение для тех, кто хочет обратиться к врачу, но не понимает, к какому именно стоит идти в первую очередь. Система использует алгоритмы AI и предотвращает ошибочную самодиагностику.

А что будет дальше

Потенциал Data Science в медицине огромен. Использовать большие данные, ML-, AI-алгоритмы можно в генной инженерии, телемедицине, в поисках причин ментальных расстройств и расстройств аутистического спектра. И, конечно, Data Science еще не раз пригодится для совершенствования диагностики и разработки лекарств.

Главное — чтобы на все задачи хватало специалистов. Отлично справляются и начинающие. Так, студенты онлайн-магистратуры «Прикладной анализ данных в медицинской сфере» от МФТИ и Skillfactory выполняли на хакатоне реальные задачи компаний Biocad, Medframe, «Фармчойс», «ОнкоАтлас».

Например, для компании Medframe студенты разрабатывали модель для поиска медицинских данных в частично структурированных базах данных по неструктурированным запросам.

Такая гибкая система в будущем сможет адаптироваться к любым критериям поиска и поможет значительно сократить время на исследования и выпуск новых лекарств. Студенты прошли весь цикл работы дата-сайентиста: от разработки требований и архитектуры системы до тестирования, оптимизации и развертывания.

Егор Изгаршев, CTO Medframe:

Хакатон — это возможность не только испытать себя и освоить новую область, но и взглянуть на привычные задачи под уникальным углом. Мы увидели разнообразные подходы к решению одной и той же задачи, каждый из которых обладал уникальными сильными сторонами. Желаем участникам удачи в погружении в эти сложные и интересные области.

Другой партнер хакатона — центр молекулярной онкологии «ОнкоАтлас». Студенты создавали модель, которая на основе молекулярного профиля определяла, возможно ли обнаружить первичный очаг опухоли. И, если возможно, выдвинуть предположение о первичном очаге с указанием уровня достоверности предположения.

Иногда метастазы находятся легко, а источник их распространения установить не удается. В этом случае лечение теряет эффективность — без воздействия на изначальный орган, пораженный раковыми клетками, добиться ремиссии трудно. Система обнаружения первичных очагов — удобный инструмент для врачей, но, главное, — тысячи спасенных жизней.

Максим Иванов, руководитель отдела RnD, «ОнкоАтлас»:

Первый недостаток любых курсов по анализу данных — задачи, которые рассматриваются для практики. Это сферические котики в вакууме, не имеющие отношения к реальности. В итоге на рынок труда выходят такие же «котики», которые слабо представляют, куда попали. Поэтому инициатива по тесному взаимодействию с бизнесом при подготовке таких специалистов — лучик света в темном царстве.

Освойте Machine Learning на онлайн-магистратуре Skillfactory и НИЯУ МИФИ и станьте востребованным специалистом с опытом в индустрии. Пройдите дополнительный трек по MLOps и научитесь внедрять модели в продакшен. Знания от экспертов вуза и практиков из IT + интенсивная практика.

Онлайн-магистратура с МИФИ по машинному обучению