GANimals: ИИ превращает домашних питомцев в неведомых зверей

Инженеры NVIDIA научили ИИ воображению с помощью генеративно-состязательных сетей.

Курс по Machine Learning
Идет набор в группу 3 800₽ в месяц

Представьте улыбку своего лабрадора на льве или привередливую мордочку вашей кошки на тигре. Людям такой скачок воображения дается достаточно просто — наши воспоминания наполнены картинками. Но подобная задача была практически не под силу компьютерам пока не появились генеративно-состязательные сети (GAN).

Команда исследователей из NVIDIA создали новую технологию в области ИИ, которая делает компьютер достаточно сообразительным, чтобы он мог увидеть изображение одного животного и после воссоздать выражение морды и позу на любом другом существе. В основе этого процесса лежат генеративно-состязательные сети — набирающий популярность алгоритм, который противопоставляет друг другу две нейронные сети.

Вы можете сами протестировать эту технологию на примере приложения GANimal. Загрузите фото своей собаки или кошки и смотрите как выражение морды вашего питомца отображается на десятках разных пород и видов: от гиеновидной собаки и египетского мау до ши-тцу, снежного барса и медведя-губача.

Я попробовал это приложение, используя фото собаки моего сына — дворняги по кличке Дюк, который внешне напоминает лабрадора-ретривера. Мой фаворит среди результатов — это темноглазая рысь с добродушной улыбкой Дюка.

В этом есть потенциал и для более серьезных приложений. Возможно однажды кинорежиссеры будут снимать собак-каскадеров, и использовать ИИ, чтобы наложить их движения на, например, менее поддающихся контролю тигров.

GANimal jpg

Исследователи NVIDIA были первыми, кто применил GAN для отображения выражения морды и позы животного со входного изображения на других. 

Команда презентовала свою работу на этой неделе на международной конференции по компьютерному зрению ICCV в Сеуле. Это одна из трех основных конференция для исследователей в области компьютерного зрения.

В статье исследователи описывают технологию, которую они назвали FUNIT — “Few-shot, UNsupervised Image-to-image Translation”. Этот алгоритм работает с ранее неизвестными целевыми классами, которые определяются во время тестирования с помощью всего нескольких примеров изображений.

Курс по нейронным сетям
Идет набор в группу 4 200₽ в месяц

“Большинство сетей для перевода изображений, основанных на GAN, натренированы решать одну задачу. Например, перевод лошадей в зебр,” — сказал Мин-Ю Лю, ведущий исследователь по компьютерному зрению в команде NVIDIA, которая разработала FUNIT.

“В этом случае мы тренируем сеть совместно решать много задач перевода, где каждая задача состоит в переводе случайного исходного животного в случайное целевое животное, используя несколько примеров целевого животного,” — пояснил Лю. “Практикуясь в решении различных задач перевода, в конечном итоге сеть учится обобщать, чтобы переводить известных животных в животных, которые неизвестны сети.”

До этой работы, моделям сетей для перевода изображений было необходимо тренироваться на большом количестве целевых животных. Теперь одного примера достаточно, частично благодаря тренировочной функции, которая включает большое количество различных задач по переводу изображений, которые добавляются командой в процессы GAN.

Этот результат — это следующий шаг к главной цели Лю: найти способы закодировать подобие человеческого воображения в нейронную сеть. “Так мы добиваемся прогресса в технологиях и обществе — решая новый типы задач,” — сказал Лю.

Команда NVIDIA, которая включает в себя больше 200 исследователей, хочет расширить способности FUNIT, чтобы включить больше типов изображений в высоком качестве. Они уже тестируют новую версию на изображениях цветов и еды.

Ранее в этом году работа Лю в области GAN уже попадала в центр внимания с GauGAN — приложением, которое превращает любые каракули в фотореалистичные произведения искусства.

GauGAN был использован для создания более миллиона изображений. Вы можете попробовать его сами на AI Playground.

На конференции ICCV Лю презентует 4 публикации в трех выступлениях и одном постерном докладе. Он также выступит председателем на сессии коротких докладов и проведет мастер-класс о использовании Tensor Cores в последних GPU NVIDIA.

Оригинал: AI’s Latest Adventure Turns Pets into GANimals

Перевод: Ухарова Елена

Поделиться: