Быстрая диагностика по анализу крови и определение эмоций в тексте — уже второй год студенты Skillfactory решают амбициозные задачи на хакатонах с компанией-партнером «Лаборатория Наносемантика». Самые впечатляющие кейсы — в нашей подборке.
Акула-гематолог Блуди
Студенты магистратуры Skillfactory и МФТИ «Прикладной анализ данных в медицинской сфере» на хакатоне совместно с компанией «Лаборатория Наносемантика» создали сервис SharkLab. Это простой и дружелюбный инструмент для интерпретации результатов общего анализа крови. Сервис дает понятные рекомендации: когда стоит обратиться к врачу, какие шаги предпринять и на что обратить внимание, а когда не стоит паниковать.
Команда ввела в интерфейс виртуального помощника — очаровательную акулу-гематолога по имени Блуди. Она делает общение с сервисом более комфортным и снижает тревожность при работе с медицинскими данными.

Проект реализовали в несколько этапов:
- Подготовка данных. Команда очистила и стандартизировала результаты анализов крови, учитывая возраст, пол, вес и рост пациентов. В процессе обработки унифицировали единицы измерения и устранили пропуски.
- Обучение моделей. Использовали алгоритмы Logistic Regression, Random Forest и XGBoost. Благодаря этому команда определила ключевые параметры, влияющие на диагностику, и выстроила логику рекомендаций — к какому врачу обратиться и насколько срочно.
- Интеграция в продукт. Веб‑сервис разработали с помощью Streamlit, а данные сохранили в базе SQLite3. При этом внимание уделялось защите персональных данных — не запрашивались имя или контакт пользователя.
- Персонализация и рекомендации. Система учитывает индивидуальные параметры пользователя и формирует советы, избегая сложных медицинских терминов. Для критически тревожных показателей есть уведомления о необходимости срочно обратиться к врачу, а при небольших отклонениях — рекомендации по питанию, активности и профилактике.
Интерфейс прост и интуитивно понятен, SharkLab можно запускать через браузер или локально — все это сделало проект удобным и функциональным.
Веб-сервис для анализа крови
Минималистичное, но не менее проработанное решение той же задачи показали студенты программы Skillfactory и Сеченовского университета «Data Science в медицине». В хакатоне участвовали две команды и один индивидуальный разработчик.
Команда под руководством Анастасии Чухонцевой создала модель для прогнозирования рецидивов лейкозов по данным клинического анализа крови. Алгоритм классифицирует пациентов по уровням риска и может заподозрить рецидив до появления симптомов. Решение упаковали в интерфейс для пациентов и врачей, которы й включает модули для диагностики анемий и может масштабироваться за счет анализа изображений и медицинских текстов. Точность модели достигла 98%, что делает ее перспективной для применения в онкогематологии.
Индивидуальный проект Евгении Андриановой — прототип сервиса автоматической интерпретации общего анализа крови с учетом персональных данных пациента. Евгения очистила и проанализировала данные, внедрила словари медицинских норм, выделила ключевые показатели и создала рекомендации для каждого. MVP реализовала в виде интерактивного файла с мгновенной обратной связью.
Также активно себя проявила команда под руководством Анастасии Лужецкой. Команда создала браузерный сервис, который по результатам общего анализа крови выдает предполагаемый диагноз, оценивает срочность обращения к врачу и формирует рекомендации.
Участники собрали датасет, объединили тесты в исследования и разметили данные комбинированным методом: по экспертным правилам, с помощью кластеризации и LLM, — после чего лучший вариант валидировали вручную. Обучив несколько алгоритмов, команда выбрала наиболее точный без признаков переобучения и внедрила его в веб-платформу на Flask с использованием JavaScript и CSS.


Чат-бот с эмпатией
На хакатоне студенты Skillfactory по заданию компании «Лаборатория Наносемантика» разрабатывали модель машинного обучения для анализа расшифровок голосовых сообщений и определения эмоций говорящего. В распоряжении участников был датасет с реальными высказываниями и их эмоциональной окраской — от радости и интереса до злости и зависти. Модель должна была принимать текст на вход, анализировать его и возвращать наиболее вероятный класс эмоций.

В отличие от голосовых сообщений, текст лишен интонации, поэтому студенты заложили в модель методы глубокого анализа структуры и контекста слов. Для этого они собрали и подготовили данные, очистили и лемматизировали текст, обучили несколько алгоритмов, чтобы выбрать наиболее результативный, и визуализировали итоги для интерпретации.
Следуя этим этапам, студенты преобразовали датасет из более 1000 текстовых сообщений в чистый и структурированный набор текстов, пригодный для точной классификации эмоциональной окраски сообщений.

Студенты протестировали несколько алгоритмов и выбрали самое эффективное сочетание: BERT + Логистическая регрессия. Эта комбинация показала точность 0,8325, что значительно превышает результаты остальных моделей.
Помимо проверки технических навыков на реальных задачах, участники хакатона прокачали свои софт скилы: коммуникацию, управление временем, работу в команде, принятие решений.