ethic_big_data

Как этические вопросы изменят сферу Big Data

Вы заметили, как большие данные вышли из онлайн-мира? Наши цифровые отпечатки, следы, которые мы оставляем в Интернете, все больше влияют на самые разные процессы «аналогового» мира. Магазины меняют набор товаров на полках, анализируя поисковые запросы. Навигаторы, которые отслеживают дорожную ситуацию, на самом деле во многом ее формируют — водители избегают «красных» улиц, и транспортный поток меняется в соответствии с их решениями.

Курс по Machine Learning
Идет набор в группу 3 800₽ в месяц

Таких примеров можно придумать очень много, и все больше экспертов задумываются о неожиданных эффектах технологий Big Data и проблемных вопросах, которые они поднимают. Где заканчиваются права человека на владение персональными данными? Как донести привить моральные принципы системам искусственного интеллекта и машинного обучения, которые в скором будущем станут принимать за человека все больше решений? Возможно ли вообще добиться того, чтобы нейронная сеть не просто определяла паттерны и тренды в наборах данных для обучения, а понимала причинно-следственную связь и, как следствие, видела исключения из общих правил?

Все это вовсе не гипотетические вопросы, а реальные проблемы, которые сильно влияют как на развитие технологий, так и на жизнь их пользователей. Профессиональное сообщество относится к ним с максимальной серьезностью — в 2019 году эти темы попали в аналитические отчеты Deloitte и Gartner, причем последние прогнозируют, что в ближайшие годы этический кодекс появится у 60% организаций с более чем 20 экспертами по Data Science в штате.

Этическую проблематику нейронных сетей, систем машинного обучения и искусственного интеллекта можно разбить на четыре категории:

  1. Приватность и безопасность частной жизни. В США уже несколько городов запретили использовать умные камеры в общественных пространствах, и скоро этот тренд может распространиться еще шире. По мнению правозащитников, такие устройства нарушают право граждан на личную неприкосновенность, поскольку никто не знает, как и где будет работать нейросеть после обучения по персональным данным. Тот факт, что видеозапись, на которой можно с гарантированной точностью распознать человека, фактически содержит эти персональные данные, сомнению не подлежит. В эту же категорию попадает история интернет-браузера, информация о привычках человека, даже показатели биоритмов, которые считывает его фитнес-браслет.
  2. Нулевая прозрачность систем искусственного интеллекта. Специалисты по машинному обучению и нейросетям традиционно называют эти системы «черными ящиками» — никто не знает, как на самом деле они принимают решения, всем важен только результат. Эта ситуация может нести скрытую угрозу, если во внутренних процессах появятся ошибки. Причин тому может быть великое множество — от недоработок программистов, которые создают аналитические модели, до проблем в наборах данных для обучения. Поскольку с сегодняшними технологиями диагностировать неполадки можно только по явным сбоям, накапливаемый эффект малоочевидных ошибок может привести к серьезным последствиям.
  3. Предрассудки нейронных сетей. Самый яркий пример, как система машинного обучения может заблуждаться в прогнозах, случился еще в 2016 году в США. Аналитическая модель, которая должна была оценивать риск совершения преступлений, вдруг начала проявлять расистские тенденции, выставляя чернокожим гражданам по умолчанию более высокий уровень угрозы, чем белым. Причина оказалась простой — афроамериканцы составляют основную часть тюремного населения в США. Разумеется, причина вовсе не в цвете их кожи, а в социоэкономических факторах, однако нейросеть, которая делает выводы исключительно по предоставленному набору данных для обучения, неспособна это понять. Этот эффект могут почувствовать на себе очень многие, когда искусственный интеллект начнет принимать решения о выдаче кредитов, виз или грантов на обучение.
  4. Отсутствие регуляции и подотчетности. Вечный вопрос: а судьи кто? Технологии больших данных используются уже 20-30 лет, но только в 2018 году Европейский союз принял Общий регламент по защите данных (General Data Protection Regulation, GDPR), который устанавливает серьезную ответственность для организаций, допустивших утечки пользовательской информации. Это случилось в тот момент, когда ситуация приобрела катастрофические масштабы — по данным экспертов информационной безопасности, с 2013 года украдены или утеряны были почти 10 млрд записей с персональными данными.
Курс по нейронным сетям
Идет набор в группу 4 200₽ в месяц

О регуляции нейронных сетей и систем машинного обучения, введении стандартов управления данными обучения пока речи не идет, хотя, как мы говорили в самом начале этой статьи, эти решения уже составляют важную часть современной жизни. Кто должен разбирать возникающие в этой области конфликты? Как определить компетенцию этого регулятора? Каким критериям должны отвечать процессы сбора, хранения и уничтожения данных искусственного интеллекта? Эти вопросы пока повисают в воздухе.

В отсутствие законодательного регулирования отраслевые эксперты и компании-разработчики пытаются самостоятельно создать стандарты для своей работы. Отчасти к этому их подталкивает «невидимая рука рынка» — пользователей пугает технологическая неопределенность, поэтому корпорациям выгодно показать, что они беспокоятся о неприкосновенности частной жизни, закладывая эти принципы в основу своих продуктов.

Компании заявляют, что они стремятся сохранить приватность своих пользователей и не собирают персональные данные без ведома их владельцев. Вся конфиденциальная информация, будь то медицинские, финансовые или геолокационные данные, не может передаваться третьим лицам и должна храниться в анонимизированном виде. Пользователи также имеют право знать, если компания использует их данные в коммерческих проектах, перепродавая их или извлекая прибыль иным образом. Выводы нейронных сетей и систем искусственного интеллекта не должны приниматься на веру — ответственность за принятие решений лежит на людях, которым следует принимать в расчет общепринятые принципы морали.

Разумеется, все это пока несет характер «заявлений о благих намерениях» — история знает множество примеров, когда в погоне за прибылью корпорации охотно закрывали глаза на любые нормы. Достаточно вспомнить Марка Цукерберга, который не нашел цензурных выражений для доверяющих ему пользователей. Тем же компаниям, которые не хотят однажды, как глава Facebook, объяснять властям причины случившихся инцидентов, эксперты Deloitte дают следующие рекомендации:

  • Создать экспертное подразделение по вопросам этичных технологий искусственного интеллекта, нейронных сетей и машинного обучения. Эти специалисты должны аккумулировать релеватный опыт частных, государственных, некоммчерских и научных организаций, чтобы сервисы их компании отвечали требуемым стандартам.
    Подготовить стратегию реагирования на технологические и культурные риски в связи с большими данными и искусственным интеллектом, выстроить корпоративные процессы в соответствии с моделями этих угроз.
  • Организовать постоянные тренинги сотрудников, чтобы они были в курсе этических аспектов технологий ИИ и знали, как действовать в повседневных и критических ситуациях.
  • Приложить все усилия, чтобы сделать алгоритмы нейронных сетей и машинного обучения прозрачными и понятными для внешних участников.
  • Следить за тем, чтобы при обучении этих систем использовались диверсифицированные наборы данных, а разработчики, архитекторы данных и все, кто занимается персональными данными, понимали значение этической стороны IT-приложений, продуктов и сервисов.

Текст: Помогаев Дмитрий

Поделиться:
Опубликовано в рубрике Наука о данных (Data Science)Tagged , ,

SkillFactory.Рассылка