10 прогнозов для глубокого обучения на 2019–2020 год

Первое полугодие 2019 подошло к концу, а в развитии технологий искусственного интеллекта наметились конкретные направления. Ещё в далеких 2017 и 2018 годах я уже пытался сделать некоторые предсказания относительно развития ИИ: они охватывали доминирование свёрточных нейронных сетей (CNN), мета-обучение, обучение с подкреплением, состязательное обучение, обучение без учителя, глубокое обучение (DL), генеративные модели и эксперименты, опережающие теорию.

Оглядываясь назад, я могу сказать, что прогнозы на 2017–2018 оказались слишком оптимистичными. А я по большей части недооценил реальные возможности в развитии искусственного интеллекта.

Курс по Machine Learning
Идет набор в группу 44900 ₽

По прошествии этих лет я гораздо лучше разбираюсь в технологиях глубокого обучения и понимаю все реальные препятствия, стоящие перед неминуемым прогрессом. В целом, все нынешние ожидания так или иначе завышены. Связано это с общим непониманием того, насколько сложна эта область. Нужно поумерить наши ожидания и сосредоточиться исключительно на более многообещающих областях. Именно они «выстрелят» в ближайшее время.

Наконец, когда я более четко сформулировал модель зрелости возможностей ИИ, у меня получилось адекватно спрогнозировать, в каком направлении развивается DL. Эта модель представлена на рисунке ниже. Я не могу не подчеркнуть её важность — мы можем достичь более высоких уровней в развитии технологий, нежели предполагаем, и довольно неочевидными путями.

Революционный прогресс происходит поэтапно, и то, с каким проблемами мы сталкиваемся сегодня, является основным препятствием для достижения уровня Вмешательства. Это не означает, что мы не можем добиться какого-либо прогресса вообще. Скорее, текущий уровень зрелости (т. е. Двойной процесс) предполагает минимальную активность с нашей стороны. Прогресс DL в 2019 году в основном будет связан с развитием более плодотворной эксплуатации.

Вот мои прогнозы на 2019 и начало 2020 года.

1. Замедление аппаратного ускорения глубокого обучения

Систолические массивы дали миру существенное увеличение ускорения в 2017 году. Ожидать значительного увеличения вычислительной мощности в 2019 году мы не можем. Архитектура NVIDIA Turing ненамного быстрее, чем тензорные ядра Volta. В системе Google TPUv3 теперь ввели жидкостное охлаждение, чтобы обеспечить более высокую интенсивность по сравнению с её предшественниками. Я не ожидаю каких-либо серьезных улучшений в 2019 году и такого роста, как в предыдущие годы.

Тем не менее, мы увидим, что новые архитектуры от GraphCore и Gyrfalcon помогут избежать больших затрат на электроэнергию при передаче содержимого памяти и будут поддерживать разреженные операции, однако для учёта этих новых архитектур потребуются изменения в формулировке DL. Необходимо проводить новые исследования в области аппаратного обеспечения, основанные на нано-интенциональности.

2. Обучение без учителя не оправдало ожиданий

Все понятия об обучении без учителя (Unsupervised Learning, или UL) — ложны. Отношения разных видов обучения должны выглядеть так:

Почему обучение без учителя наименее ценно и наименее сложно? Потому что вы можете просто создать любую кластеризацию, которая будет или не будет работать. В конечном итоге все сводится к тому, как работают более высокие уровни на основе вложений обучения без учителя. UL-вложения — это данные, которые содержат богатый набор априоров, и то, как эти априоры используются, зависит от процессов верхнего уровня, у которых есть цели. Было также обнаружено, что мы можем обучать UL, который прогнозирует (или генерирует) свои данные, что служит базой для последующих задач. UL по сути является контролируемым обучением с уже существующей в данных меткой. Короче говоря, задача UL была решена, но не так, как ожидало большинство практикующих. Если сеть может делать верные прогнозы или генерировать хорошие копии исходных данных, тогда это связано с обучением без учителя.

Все думали, что большим достижением в обучении без учителя была бы возможность использовать данные без человеческого вмешательства. К сожалению, это оказалось заблуждением. Мой прогноз для обучения без учителя на ближайший год: вместо него ученые сосредоточатся на более ценных исследованиях.

3. Мета-обучение — только для исследований

Понимание мета-обучения (то есть обучения обучению) кажется таким же туманным, как и наше понимание обучения без учителя. Мета-обучение больше похоже на трансферное обучение (Transfer Learning). Более продвинутый вид мета-обучения — это способ создания и улучшения своих собственных моделей. Мета-обучение должно быть в состоянии реализовать экстраполяционные и изобретательные (Extrapolative и Inventive Learning) модели обучения, и нам до этого ещё очень далеко.

Любой метод обучения, который применим ко многим областям, технически является алгоритмом мета-обучения. Например, градиентный спуск, генетические алгоритмы, обучение на играх с самим собой и эволюция — все это алгоритмы мета-обучения. Цель мета-обучения заключается в разработке алгоритмов, которые хорошо учатся во многих областях.

Сейчас очень мало известных алгоритмов мета-обучения. Существует один общеизвестный алгоритм, но и тот мы плохо понимаем. Алгоритмы мета-обучения вообще сложны для понимания — это и является главной проблемой.

Я подозреваю, что конкретные методы, описанные ниже (например, генеративные модели, гибридные модели и учебная программа), гораздо больше помогут в достижении важных результатов. Я хочу сказать, что алгоритмы мета-обучения полезны только для решения конкретных задач. Подобно тому, как обучение обучению с помощью градиентного спуска ускоряет градиентное снижение только для конкретной задачи, мета-обучение может улучшить обучение только в тех задачах, которые оно выполняло. Короче говоря, вероятно, не существует универсальных методов мета-обучения, но существует набор методов мета-обучения, которые можно объединить, чтобы получить эффективную учебную программу.

Таким образом, исследования мета-обучения (за исключением поиска нейронной архитектуры) останутся лишь чистым любопытством.

Курс по нейронным сетям
Идет набор в группу 49 900 ₽

4. Использование генеративных моделей в науке

Сейчас мы пытаемся улучшить контроль над генеративными моделями. Существуют три класса генеративных моделей, которые показали свою эффективность: вариационные автоэнкодеры (VAE), генеративно-состязательные сети (GAN) и потоковые модели. Я рассчитываю на значительный прогресс в GAN и потоковых моделях и минимальный прогресс в VAE. Также я ожидаю увидеть применение этих технологий в научных исследованиях, которые связаны со сложными адаптивными системами (например, погода, моделирование жидкости, химия и биология). Прогресс в этой области окажет глубокое влияние на развитие науки.

5. Использование гибридных моделей в прогнозировании

Глубокое обучение продолжает показывать свою силу в обеспечении прогнозов многомерных систем. Однако, оно всё ещё не может сформулировать свои собственные абстрактные модели, и это останется фундаментальным препятствием на пути интерпретируемых и экстраполяционных прогнозов. Чтобы компенсировать эти ограничения, мы должны применить гибридные двухпроцессные решения, которые включают в себя существующие модели в сочетании с обучением алгоритмов без моделей.

Я вижу больше смысла в развитии обучения с подкреплением (Reinforcement Learning, или RL) на основе моделей, нежели без моделей. Мне кажется, что эффективность безмодельного RL может быть увеличена с помощью моделей, созданных вручную. Я ожидаю прогресса в реляционных графовых сетях и улучшений в возможностях прогнозирования.

Индустриализация DL произойдет не потому, что мы достигли прогресса в области трансферного обучения (как я ошибочно предсказал в 2017 году), а благодаря объединению созданных человеком и обученных с помощью DL моделей.

DS
Специализация Data Science
Идет набор в группу 150 000 ₽

6. Больше методов имитационного обучения (Imitation Learning)

Думаю, мы продолжим наблюдать значительный прогресс в имитации всех видов существующих систем. Чтобы иметь возможность имитировать поведение, машине нужно создать описательную модель, которая отражает поведение. Это проще, чем генеративное моделирование. Генеративные модели работают так хорошо, потому что всё, что они делают, — имитируют данные, а не выводят основную причинную модель, которая генерирует данные.

7. Больше интеграции DL в исследования дизайна

В ближайшее время появится много исследований в области генеративных моделей, переходящих в существующие инструменты проектирования. Это будет происходить сначала в визуале и постепенно переходить к другим областям.

Фактически, мы могли бы даже рассматривать прогресс, достигнутый AlphaGo и AlphaZero, как прогресс в области дизайна. Игроки в го и шахматисты начали изучать стратегии, разработанные игровым искусственным интеллектом DeepMind, для разработки новых стратегий и тактик, которые ранее не были исследованы.

Возможности брутфорса и масштабируемости позволят DL улучшить уже созданные проекты. Многие методы DL в настоящее время интегрируются в продукты Adobe и AutoDesk. Style2Paints — отличный пример методов DL, интегрированных со стандартным приложением для ПК.

DL будет по-прежнему внедряться в рабочий процесс человека. Сети DL снизят нагрузку, позволят создавать более эффективные инструменты для обработки данных. Все это уменьшит информационную нагрузку и ускорит принятие решений.

8. Отказ от полного обучения (End-to-end training), акцент на развивающем обучении (Developmental Learning)

Полное обучение будет становится все менее популярным. Появятся сети, направленные на изучение конкретных навыков, а также новый метод, чтобы соединить эти навыки как строительные блоки для более сложных навыков. Я ожидаю больше исследований, вдохновленных развитием младенцев. Подготовка сетей для выполнения сложных задач потребует сложного формирования вознаграждения, поэтому нам нужны более совершенные методы решения этой проблемы.

9. Богатые вложения в обработку естественного языка (Natural Language Processing, или NLP)

В 2018 году NLP получила развитие главным образом благодаря достижениям в подходах к обучению без учителя. Это продолжение подходов Word2Vec и Glove. Достижения NLP в 2018 году можно отнести к более продвинутым нейронным механизмам встраивания (ELMO, BERT). Это привело к неожиданным улучшениям многих исходных задач NLP во всех направлениях. Работа в реляционных графовых сетях может ещё больше расширить возможности DL NLP.

Модуль Transformer Network также оказалась чрезвычайно ценной в NLP, и я ожидаю её дальнейшего внедрения в других областях. Подозреваю, что доминированию сетей ConvNet бросит вызов сеть Transformer.

10. Внедрение подходов кибернетики и системного мышления

Основным недостатком глубокого обучения является отсутствие понимания общей картины. Мы находимся на том этапе, когда необходимо черпать вдохновение из более нетрадиционных источников. Я полагаю, что эти источники пришли из более ранних исследований в области кибернетики и связанной с ней дисциплины системного мышления. Нам нужно задуматься, как создать надежную интеллектуальную инфраструктуру и интеллектуальное увеличение. Это потребует выхода за рамки существующего мышления машинного обучения, на котором выросли многие исследователи.

Майкл Джордан в своем эссе «Искусственный интеллект — революция еще не произошла» отмечает, что кибернетика Норберта Винера «стала доминировать в современной эпохе». Кибернетика и системное мышление помогут нам разработать более целостные подходы к проектированию систем ИИ. Успешные развертывания ИИ в конечном итоге будут связаны с тем, как они соответствуют потребностям пользователей. Это потребует изучения и формулирования целостного подхода, который объединяет множество взаимодействующих частей.

Многие новые подходы в DL можно проследить до более старых идей в кибернетике. Будет расти понимание того, что автономный ИИ требует включения субъективной перспективы в свои модели мира. Кодирование с предсказанием, воплощенное обучение (Embodied Learning), система Точно-в-срок, внутренняя мотивация, любопытство, самодельные модели и действенные представления — всё связано в этой парадигме.

Резюме

Deep Learning продолжает прогрессировать с огромной скоростью, и я ожидаю его неизбежный переход в промышленные приложения. Общее непонимание DL на современном рынке заключается в невозможности сформулировать целостные решения существующих проблем. DL не может быть молотком, где каждая проблема — гвоздь. А вот, способность создавать решения, которые интегрируют DL как компонент в целостное целое, будет востребованным набором навыков. Мышление машинного обучения — совершенно неправильная перспектива развития, и нечто более подходящее можно найти в кибернетике. Мы не могли бы достичь больших результатов в краткосрочной перспективе, но инструменты и методы Deep Learning служат прочной основой для неожиданно ценных открытий как для науки, так и для коммерции.

Оригинал статьи: 10 predictions for deep learning in 2019

Перевод: Астафьева Наталья

Поделиться: