dl_since

Глубокое обучение и наука: обзор возможностей и тенденций

В этой статье я расскажу о возможностях применения глубокого обучения (deep learning) для научных и инженерных областей. Я начну с обзора эмпирических моделей, а затем кратко расскажу о некоторых характерных чертах нейронных сетей. Основное внимание будет уделено возникнувшим глобальным тенденциям и типичным приложениям глубокого обучения в различных научных областях.

Курс по Machine Learning
Идет набор в группу 3 800₽ в месяц

Появление эмпирических моделей

В течение всей своей истории человечество всегда что-то строило и мастерило. И только совсем недавно мы смогли начать конструировать такие чрезвычайно сложные вещи, как небоскребы или коммерческие самолеты. Этот скачок от каменных орудий к современности случился во многом благодаря тому, что мы научились создавать математические модели: упрощенные сжатые образы окружающего нас мира. Используя модели мы смогли создавать сложные конструкции, будучи уверенными в том, что они будут работать так, как мы того хотели — потому что они были уже смоделированы нами заранее. Эти аналитические модели оказались невероятно успешным инструментом: всего несколько уравнений могут описать большинство интересующих нас явлений и позволяют манипулировать ими в наших интересах.

Однако эти изящные в своей компактности аналитические уравнения порой чрезвычайно трудно решить. Во многих случаях вывод таких уравнений требует годы сосредоточенных усилий, даже для простых явлений. Например, хотя приближенные решения для движения маятника и конструкции синглетной линзы были известны на протяжении веков, решения в аналитическом виде даже для таких простых задач были получены только в последнее десятилетие (1, 2). Вместо этого мы часто используем итерационные численные модели, которые обычно основаны на дифференциальных уравнениях в частных производных, которые решаются итерация за итерацией и медленно сходятся к некоторому ответу (хотя обычно теория не дает гарантии того, что ответ правильный).

Численные модели

В последние несколько десятилетий начала расти популярность другого типа моделей — эмпирических. Такую тенденцию можно объяснить 3-мя основными факторами: неспособностью аналитических и численных моделей хорошо описывать явления в определенных областях, таких как биология, психология, экономика и медицина; быстрым распространением больших объемов данных; и достижениями в областях статистики и информатики, которые значительно улучшили производительность таких моделей.

Эмпирические модели отличаются от своих аналитических и численных аналогов тем, что в них предварительно не заложено никаких знаний о мире. Задача таких моделей — найти закономерности в данных и “подогнать” кривую к имеющейся информации. В этом отличии таится некоторая опасность, поскольку на основе недостаточных или же предвзятых наборов данных получатся эмпирические модели, которые вроде как работают, но на самом деле не точно отражают реальность. На самом деле эмпирические модели никогда не могут претендовать на то, что они абсолютно точно описывают реальность, они могут дать только приблизительную оценку. Мы используем эмпирические модели потому что они дают хорошие результаты, но мы никогда не можем доверять им просто потому, что их работа похожа на правду. Всегда необходима дополнительная проверка, чтобы удостовериться в верности модели, прежде чем использовать ее далее в надлежащем контексте.

Учитывая то, что такие огромные отрасли как разработка программного обеспечения и онлайн-технологий практически полностью построены на сборе данных, не удивительно, что эмпирические модели получили широкое распространение. Растущие IT-корпорации определили направление развития искусственного интеллекта в сторону решения актуальных для них задач, таких как построение систем рекомендаций, классификация изображений или обработка текста.

Но в последнее время эмпирические модели, в частности модели глубокого обучения, приобрели популярность и в различных научных областях. В следующих разделах мы и рассмотрим некоторые варианты использования глубокого обучения в науке.

Курс по нейронным сетям
Идет набор в группу 4 200₽ в месяц

Почему именно глубокое обучение?

Некоторое время назад в области многослойных нейронных сетей появилась новая эмпирическая модель под названием “глубокое обучение”. Но почему именно глубокое обучение получило такое широкое развитие? Почему не другое семейство эмпирических моделей, как, например, метод опорных векторов, который был изучен вдоль и поперек в 90-е? Стоит отметить несколько причин, по которым глубокое обучение заняло особенное место среди других моделей.

Ранее я упомянул, что одним из движущих факторов появления эмпирических моделей было быстрое разрастание объемов данных. Подразумевалось, что увеличение количества данных всегда улучшает производительность. Но оказалось, это не всегда правда.

Отношение между производительностью модели и данными зависит от емкости модели (семейство функций, которые модель может аппроксимировать) и смещения модели (априорное допущение, которое модель делает относительно базовых данных). К примеру, линейная регрессия имеет очень высокое смещение, так как предполагает, что лежащие в основе данные являются приблизительно линейными, что сильно ограничивает возможности модели. Нейронные сети же  (согласно универсальной теореме аппроксимации) могут аппроксимировать любую действительную функцию. Опытным путем обнаружилось, что нейронные сети действительно хорошо масштабируются (хотя у нас пока нет полноценных теоретических обоснований почему это так, см. здесь и здесь). Но важно помнить, что глубокое обучение преобладает только в области очень больших наборов данных. Когда речь идет о «малых данных», невозможно дать универсальный ответ о том, какой именно тип модели лучше. В такой ситуации вам, скорее всего, придется основательно задуматься о процессе конструирования признаков, чтобы заставить модель хорошо работать.

Зависимость производительности модели от объема данных

Другой важной характеристикой нейронных сетей является их способность использовать необработанные и неструктурированные данные в качестве входных. Такими типами данных являются изображения, аудио, видео и т. д. Сегодня большая часть данных в сети находится именно в этой неструктурированной форме, и только благодаря значительным человеческим усилиям эти данные превращаются в машиночитаемую форму. Специалистам приходится вручную находить определяющие признаки и обрабатывать данные, прежде чем скормить их эмпирической модели. Но, в отличие от других моделей, нейронные сети могут принимать необработанные данные и изучать их характеристики самостоятельно, без какого-либо человеческого руководства. Позже я покажу, что эта способность принимать на вход неструктурированные данные также позволяет использовать различные нейронные архитектуры, открывая широкий спектр потенциальных приложений.


Глубокое обучение в науке

Три столпа моделирования

Существует 3 основных столпа, на которых стоит моделирование: данные, вычисления и алгоритмы. Вычисления, как правило, не являются ограничивающим фактором для научных приложений, и глубокое обучение очень часто используется в этой области из-за своей вычислительной эффективности по сравнению с численными методами, которые требуют решения дифференциальных уравнений в частных производных. Кроме того, благодаря распространению сервисов облачных вычислений (а также появлению специализированного оборудования), вычисления стали весьма дешевыми. Особенность научных наборов данных состоит в том, что они часто намного меньше (от сотен до тысяч примеров), чем массивные наборы, используемые онлайн-приложениями (от миллионов до миллиардов примеров), а значит и вычислительных ресурсов требуется гораздо меньше. А улучшения в теории обучения и моделях статистического вывода, таких как само глубокое обучение, привели к созданию стандартизированных архитектур, которые хорошо работают и могут быть развернуты «из коробки», например простая сверточная нейронная сеть в Keras.

Усложняет ситуацию тот факт, что для успешной работы в области моделирования необходимо находиться в центре тяжести этих трех столпов, то есть иметь навык работы со всеми частями. К сожалению, глубокому обучению потребовалось немало времени, чтобы прижиться в исследовательских группах, не связанных с информатикой. Одним из важных движущих факторов этого является существующий дисбаланс на рынке: технические корпорации (практически во всех отраслях) отчаянно стремятся получить собственные наработки в области глубокого обучения и могут платить гораздо больше, чем традиционные исследовательские лаборатории.

Тем не менее, это постепенно меняется, так как многие научные специалисты начинают менять фокус своей карьеры в сторону этой активно развивающейся области, а также потому, что растущий интерес к глубокому обучению медленно увеличил число студентов с необходимыми навыками, несмотря на интенсивные попытки переманить профессоров, специализирующихся на искусственном интеллекте, из университетов. Помогло и развитие фреймворков с открытым исходным кодом, таких как Tensorflow и Pytorch, а рост онлайн-обучения с помощью массовых открытых онлайн-курсов (MOOC), таких как Coursera, EdX, и даже таких ресурсов, как Medium (например, TDS Team) сделал образование в области искусственного интеллекта по-настоящему доступным. Осознание крупными IT-компаниями необходимости помогать росту талантливых людей вне компании тоже дало свои плоды, приведя к созданию, например, курса разработчиков Google ML или школы искусственного интеллекта Microsoft. Все эти факторы привели к медленному проникновению глубокого обучения в научные области.

DS
Специализация Data Science
Идет набор в группу 12 500₽ в месяц

Темп принятия глубокого обучения в разных областях

Ограничивающим фактором, особенно в научных приложениях, являются данные. Вот почему области, которые имеют наибольший опыт работы с эмпирическими моделями (например, биоинформатика, геномика, физика высоких энергий), также являются областями, которые имеют наиболее крупномасштабные наборы данных с открытым исходным кодом. И наоборот, области, которые могли бы получить огромный толчок к развитию с помощью глубокого обучения, — это те области, в которых в настоящее время отсутствуют стандартизированные базы данных с открытым исходным кодом, и те, где трудно получить большие объемы высококачественных данных (например, свойства наноматериалов, страхование и здравоохранение). Наборы данных с открытым исходным кодом, такие как ImageNet, Cifar-10, Youtube 10M и т. д., подтолкнули развитие архитектур нейронных сетей, и аналогичный результат можно ожидать от данных из различных научных областей.

Структура данных также имеет значение. Например, классификация злокачественных и доброкачественных опухолей на маммограмме легко переводится в проблему классификации или сегментации изображений. И наоборот, задача предсказания свойств химических молекул вызывает множество вопросов — как нам представить эти молекулы таким образом, чтобы модель могла понять? Достаточно ли стехиометрической формулы? Должны ли мы включать кристаллическую группу, условия синтеза, квантово-механическое описание и т. д.? Определение того, как «дактилоскопировать» молекулу для использования в модели машинного обучения, является гораздо более сложной задачей, требующей значительно большего опыта в предметной области, чем просто передача матриц в модель. Скорость принятия глубокого обучения в каждой области зависит от того, насколько легко данные могут быть представлены в виде традиционных структур, но, с другой стороны, это также дает возможность разрабатывать новые модели, которые изначально учитывают сложные данные в конкретной дисциплине. Среди других факторов, влияющих на то как быстро глубокое обучение станет широко использоваться в той или иной научной области, стоит упомянуть сложность получения данных из числовых моделей и достоверность таких моделей, высота барьера для входа в научную область специалистов по машинному обучению и т. д.

Отличительная черта областей, которые одни из первых начали использовать глубокое обучение, заключается в том, что они отдают предпочтение результату перед объяснимостью, считают некоторую неопределенность приемлемой и допускают случайные ошибки. Если наша цель состоит в том, чтобы оптимизировать конструкцию материала или ускорить физическое моделирование, нам может быть все равно, как именно мы получили результат. Более того, некоторая ошибка в полученном решении не будет критичной, если это решение достаточно близко к правде и лучше, чем то, что у нас было раньше. Но если мы проектируем национальные электрические сети или ставим медицинские диагнозы, то нужно быть значительно более осторожными. Машинное обучение отлично подходит для одних вопросов и в меньшей степени для других: понимание специфики задач и конструктивных ограничений покажет границы области применения эмпирических моделей, и, возможно, даст толчок к разработке новых моделей.

Особенность областей, которые не спешат принять и начать использовать глубокое обучение, — это то, что они работают с разрозненными данными. Конфиденциальные медицинские данные пациента и данные, связанные с энергетикой являются хорошими примерами. В таких областях первым делом следует поощрять разговор о том, как создать реалистичные наборы данных, которые, в то же время, возможно было бы сделать общедоступными. Крупномасштабные наборы данных с открытым доступом важны, потому что они подталкивают область к открытой разработке новых методологий на основе общего набора данных, ускоряя инновации и обмен знаниями. Установление соглашений для анонимизации и обмена данными также важно. Новые разработки в области федеративного обучения — это важный первый шаг к разработке алгоритмических гарантий для обеспечения безопасного и конфиденциального обмена данными в первую очередь. В областях с сильно разрозненными данными следует также ожидать, что исследовательские группы с привилегированным доступом к данным будут иметь значительное преимущество по сравнению с группами без них.

Как вы можете видеть, одна из наиболее важных характеристик, которую следует учитывать при изучении степени распространения глубокого обучения в различных научных областях, — это данные. В частности, решающими факторами являются количество, разнообразие и то, что я называю «применимостью», то есть насколько структура данных подходит архитектуре глубокого обучения. Многие области в настоящее время испытывают то, что можно назвать их собственным часом ImageNet, поскольку количество научных данных по различным дисциплинам разрастается с огромной скоростью.

Специализация «Frontend-разработчик»
Идет набор в группу 5900₽ в месяц

Глубокое обучение и научная философия

Глубокое обучение показало потрясающие способности к самостоятельному изучению признаков, и в некоторых областях уничтожило десятилетия экспертной работы. Это, естественно, может привести к некоторой обеспокоенности тем, что глубокое обучение может автоматизировать работу ученых. Однако это маловероятно, по крайней мере, в ближайшем будущем, и на это есть несколько причин. Во-первых, глубокое обучение не объясняет, а наука (с чем можно, конечно, поспорить) следует идеям механицизма. Глубокое обучение может помочь в разработке теорий, но пока не будет самостоятельно разрабатывать какие-либо новые идеи. Во-вторых, многие достижения глубокого обучения заключаются в том, что оно помогло улучшить процессы сбора или визуализации данных, но интерпретация, самая важная часть науки, все еще принадлежит людям. Наконец, глубокое обучение до сих пор было областью веб-технологий, его развитие было мотивировано проблемами, с которыми сталкиваются Google, Facebook и другие подобные компании. Научные задачи имеют другие критерии успешности решения и другие типы данных, в сравнении с тем, с чем сталкиваются технические компании. Для удовлетворения этих специфических потребностей необходимо создание новых архитектур и подходов, и они должны быть разработаны теми, кто действительно понимает основную проблему. Так создание моделей нейронных сетей, которые учитывают физические ограничения, например с использованием кастомизации функций потери является растущей областью исследований.

Возможно, самый широко применимый совет, который можно дать, это: следуйте за данными. Если у вас есть опыт применения глубокого обучения в конкретной области, ищите соавторов, которые могут предоставить вам доступ к большим объемам данных. И наоборот, если вы сидите на вычислительных ресурсах или больших неиспользуемых наборах данных, ищите людей с проверенным опытом в области глубокого обучения или, что еще лучше, поощряйте внутреннее обучение существующих кадров в этих областях. Вы также можете создавать свои собственные данные! Копание в старых лабораторных тетрадях и исследовательских работах или даже несколько недель генерации собственных данных — это уникальный способ использовать активы лаборатории. Наиболее удачно расположенные в этом смысле исследовательские группы будут накапливать собственный опыт в области глубокого обучения в конкретной научной области, имея доступ к постоянному потоку новых данных.

Типичные задачи для глубокого обучения в научных приложениях

Основываясь на своем опыте применения глубокого обучения в различных научных областях, я заметил, что описания многих задач подпадают под схожие шаблоны. Я обрисовал в общих чертах несколько проблем, которые распространены в научных дисциплинах. К описанию каждого шаблона я добавил несколько опубликованных работ, которые посвящены решению подобных задач. Если у вас есть научная задача, которая вписывается в один из этих шаблонов, то, скорее всего, глубокое обучение не только может помочь сделать значительный прорыв в этом вопросе, но и вполне возможно, что уже существует набор хорошо известных методов, которые могут быть применены.

Подгонка и оптимизация: нам дается либо 1) существующая численная модель, которая работает чрезвычайно медленно, например, метод конечных элементов, симуляторы столкновения частиц и т. д. или 2) очень большой набор данных, который нельзя охарактеризовать традиционными методами, например, геномика. Наша задача представляет собой последовательный двухэтапный процесс. Сначала мы хотим иметь возможность создать модель, которая научилась бы хорошо представлять числовую модель или базовый набор данных. Это стандартная проблема обучения под наблюдением, в которой мы применяем глубокое обучение, чтобы либо ускорить существующие численные методы, либо понять чрезвычайно сложные данные и сделать выводы на основе этих данных. Часто естественным следующим шагом в этой задаче является оптимизация для некоторой функции стоимости, что может быть выполнено либо с помощью численных методов, таких как градиентный спуск или эволюционные алгоритмы, либо с помощью генеративных моделей. Генеративные модели хороши тем, что нужно построить только одну модель, вместо того, чтобы строить и модель вывода, и оптимизатор. Это также может рассматриваться как проблема обратного проектирования, когда желательно обучение по одному примеру (one-shot learning).

Это однозначно самый распространенный тип проблем, который я наблюдал в своей работе. Этот шаблон работает каждый раз, когда вы хотите найти оптимальный дизайн сети для некоторого набора желаемых свойств. В то время как конечной целью является обратная разработка с обучением по одному примеру, в настоящее время наиболее подходящей парадигмой является так называемая подгонка и оптимизация, поскольку суррогатные модели DL могут легко заменить вычислительно дорогие численные модели. Команда Google DeepMind использовала комбинацию нейронных сетей для статистического вывода и градиентного спуска для оптимизации, чтобы предсказать конфигурации сворачивания белка и обогнала во производительности другие команды, используя их модель AlphaFold. Лю и соавторы использовали нейронные сети для обратного проектирования в области нанофотоники, используя двухэтапную процедуру обучения для поиска наноструктур с заданными спектрами пропускания. В этой работе обратное проектирование было выполнено без фреймворка подгонки и оптимизации, но с использованием умных архитектур нейронных сетей и процедур обучения, что демонстрирует как опыт и понимание глубокого обучения могут улучшить идею традиционной суррогатной модели.

В качестве подслучая подгонки и оптимизации, существуют также ситуации, когда мы просто хотим ускорить числовые модели, например расчеты функционала плотности, многомасштабные физические модели, хаотические системы и т. д. для ускорения моделирования различных теорий или ускорения теоретических прогнозов для проверки экспериментальных данных.

Устранение шумов: нам дана система для измерений, но физические измерения состоят из желаемого сигнала и шума, и во многих случаях удаление шума из измерений оказывается весьма сложной проблемой. Также возможно, что мы калибруем наше измерительное устройство или что измерения с трудом поддаются пониманию человеком (например, гиперспектральные данные). В любом случае, должен существовать некоторый установленный золотой стандарт для сравнения с ним измерений, называемый основополагающей истиной (ground truth). Для решения этой задачи необходимо рассмотреть ее три основных компонента: что такое зашумленные данные, как выглядят отфильтрованные данные и как получить отфильтрованные данные в качестве метки; как поставить задачу: использовать алгоритм обучения с учителем, без или смешанный вариант; и как измерить качество фильтрации шумов. Аналогичный сценарий можно увидеть когда нам дают две разные числовые модели или симуляции, одна из которых работает быстро, но неточно, а другая — медленно и точно, и мы хотели бы иметь точность последней и скорость первой.

Например, Шавински и коллеги в ETH Zurich использовали генеративно-состязательные сети (GAN) для фильтрации шумов в изображениях галактик. Для обучения GAN они использовали искусственно ухудшенные изображения и показали, что такие сети способны восстанавливать исходные изображения лучше, чем обычные методы. Они использовали несколько сочетаний традиционных и новых методов для измерения эффективности фильтрации. А в области абсолютно противоположных масштабов, Ривенсон и коллеги использовали архитектуру типа автоэнкодера для полносверточной нейронной сети (FCN) для восстановления фазы при измерениях клеток. Чтобы получить основополагающую истину для сравнения, они использовали 8 измерений с разным расстоянием между образцом и датчиком, чтобы восстановить фазу и использовать в качестве метки для FCN. В более общем смысле, FCN были использованы для восстановления части сигнала, для получения которой ранее необходимо было проводить многократные измерения.

Актор-модели: есть агент, который взаимодействует со средой, и мы хотели бы, чтобы этот агент изучил некоторую стратегию, чтобы максимизировать функцию стоимости в случае, например, управления коммерческой системой вентиляции и кондиционирования, регулирования энергоснабжения или отслеживания биологических образцов с помощью микроскопа. Во многих случаях такие задачи могут быть переформулированы в один из типов, описанных выше, например, прогнозирование будущих значений и применение известных аналитических стратегий на основе опыта в конкретной предметной области, фильтрация шумов вместо изучения более эффективных стратегий и т. д. Поскольку такие задачи обучения с подкреплением намного сложнее, чем обучение с учителем, часто имеет смысл использовать модель статистического вывода в сочетании с простым эвристическим алгоритмом, разработанным на основе нашего понимания системы, поскольку такие системы обычно имеют меньше неопределенности. Построение задачи сильно влияет на ее сложность, а также на тип используемых моделей — для задач такого типа часто проще преобразовать их в задачи более простого типа, например, регрессии или классификации.

В качестве примера преобразования задач этого типа в задачу регрессии можно привести статью Вей и коллег, где они использовали глубокое обучение для автоматической фокусировки микроскопа во время микроскопии живых клеток. Однако вместо использования очень сложного подхода обучения с подкреплением они использовали CNN для прогнозирования правильных параметров микроскопа с учетом входного изображения. Такая CNN может использоваться для обновления фокуса микроскопа каждые несколько секунд без необходимости в обучении с подкреплением. Впечатляет, что такая модель показала большую точность, чем группа людей-экспертов.

Обучение с подкреплением также было применено к системам вентиляции: Вей и соавторы минимизировали стоимость электроэнергии для зданий. Системы кондиционирования были смоделированы как Марковский процесс принятия решений (МППР) и нейронная сеть была использована для оценки Q-значений. Алгоритм обучения с подкреплением показал значительную экономию средств по сравнению с моделями на основе правил. И действительно, обучение с подкреплением в настоящее время становится популярным методом моделирования электрических сетей, в котором часто используется комбинация МППР, Q-обучения и традиционных экономических и физических моделей энергосистем для минимизации энергопотребления и экономических затрат.


Важные различия между «традиционными проблемами глубокого обучения» и научными проблемами

Вышеописанные шаблоны показывают определенное соотношение между научными задачами и типами задач, характерных для глубокого обучения, и помогают определить текущие тенденции в научных публикациях, касающихся задач, которые легко переносятся в термины эмпирических моделей. Тем не менее, важно также подчеркнуть различия между задачами глубокого обучения, часто мотивируемыми IT-компаниями, и проблемами в научных областях.

Возможно, самое очевидное отличие состоит в том, что наука имеет дело с гораздо меньшими наборами данных. Получение данных обычно ограничено вычислительными возможностями или возможностью проводить эксперименты с высокой пропускной способностью. Данные обычно не просто всплывают из ниоткуда, готовые к сбору; они должны быть сгенерированы с использованием некоторых вычислений или повторяющихся экспериментов. В то время как современные исследования в глубоком обучении часто фокусируются на том, как помочь чрезвычайно крупным моделям учиться на еще больших наборах данных (например, RoBERTa), нам нужно больше исследований в области моделей, которые были бы эффективны при наличии некоторой выборки.

К счастью, в научных областях мы знаем гораздо больше об отношениях между нашими входными данными и выводом. Столетия человеческих исследований не прошли даром! Во многих случаях мы знаем конкретные ограничения на отношения между входящей информацией и выводом или конкретную форму вывода, например, сохранение энергии, обеспечение известных соотношений между элементами в моделях с несколькими выводами. Основная трудность, которая сама по себе является существенной и активной областью исследований, заключается в том, как эффективно передавать или кодировать наши имеющиеся знания в самой модели.

Многие ученые и инженеры, работающие над «традиционными» проблемами глубокого обучения, как в промышленности, так и в научных кругах, часто жалуются на длительное время, требующееся для обучения нейронных сетей и получения результата. Но для научного сообщества глубокое обучение как стохастическая модель на много порядков быстрее, чем традиционные итеративные численные модели. Также важно отметить, что время обучения нейронных сетей в будущем будет только сокращаться, поскольку такие компании, как NVIDIA и Intel, вкладывают значительные ресурсы в создание специализированного оборудования для ускорения операций, производимых нейронными сетями, как, например перемножение матриц. Это, разумеется, не относится к традиционным численным методам, которые в большинстве случаев нуждались в десятилетиях человеческих усилий, вложенных в поиск более эффективных научно обоснованных алгоритмов, чтобы оптимизировать время выполнения операций до максимально возможного.

Я планирую продолжать обновлять список различий между традиционными проблемами глубокого обучения и научными проблемами. Надеюсь, что это послужит ориентиром для областей, в которых достижения в области машинного обучения и научные потребности не совпадают, и помогут мотивировать дальнейшие попытки создания моделей глубокого обучения, с учетом особенностей конкретной области.


Новое направление развития

В области глубокого обучения в настоящее время преобладают интересы IT-индустрии: они способны вкладывать значительные средства в вычислительную инфраструктуру, владеют большими проприетарными наборами данных и, самое главное, имеют обширное финансирование для привлечения талантливых кадров, таким образом замедляя развитие использования машинного обучения в научных областях. Показательно, что наибольшее количество статей на NeurIPS 2018 было опубликовано Google, и что из 10 ведущих по количеству статей организаций 3 из них были коммерческими компаниями. Кроме того, использование очень успешных моделей, обученных на массивных наборах данных о взаимодействиях в социальных сетях, привело к росту озабоченности касательно вопросов конфиденциальности, предвзятости, этики и влияния таких технологий на демократию.

Но вопреки тому, что мы видим в новостях, есть и другие способы использования искусственного интеллекта, помимо рекомендаций по поиску, алгоритмов новостных лент и распознавания лиц. Мы могли бы использовать ИИ для ускорения научного моделирования, чтобы находить новые материалы для борьбы с растущими выбросами углерода, для улучшения доставки лекарств и лечения рака, а также чтобы лучше понять мир вокруг нас. Есть много важных примеров использования ИИ для научного прогресса, в которых отсутствуют многие (но не все) острые и этически неоднозначные проблемы, свойственные IT-индустрии.

Для этого потребуется новое поколение двуязычных ученых, которые будут свободно владеть как научными знаниями, так и навыками машинного обучения. Эта потребность уже была признана в определенных областях, таких как физика высоких энергий. Есть много громких заявлений касательно искусственного интеллекта и глубокого обучения, но не будет преувеличением сказать, что они помогают создать революционно новые способы научных исследований. Но это потребует от ученых умения использовать этот новый инструмент.


Заключение

Системы, основанные на глубоком обучении, демонстрируют способности, которые весьма похожи на человеческие, в таких областях как настольные игры, вождение автомобиля и распознавание изображений, и это вызвало большую шумиху вокруг ИИ. Но эти достижения были мотивированы IT-корпорациями, которые заинтересованы в определенном наборе задач, имеющих прямое отношение к их источникам доходов. Однако у глубокого обучения есть огромный потенциал в гораздо более фундаментальных проблемах в науке и технике. Используя глубокое обучение, мы можем улучшить наше понимание галактик и вселенной, расшифровать последовательности геномов и определить материалы следующего поколения для развивающегося (нагревающегося) мира. Я надеюсь, что, обучая первое поколение ученых навыкам глубокого обучения, мы, возможно, подтолкнем их использовать свое уникальное сочетание знаний, чтобы лучше понять окружающий нас мир.

Оригинал: Deep Learning in Science

Перевод: Ухарова Елена

Поделиться:
Опубликовано в рубрике Machine Learning, Переводные материалыTagged ,

SkillFactory.Рассылка