НОВОСТИ

В DeepMind создали искусственный интеллект с навыками пространственного мышления

Анна Колянчук 3 июля 2018, 11:34

Специалисты британской компании DeepMind, принадлежащей Alphabet (владеет Google), разработали нейронную сеть, которая может понимать сцену на картинке и «представлять» её с любого угла, даже если ранее никогда не видела этот ракурс. Об этом сообщает блог компании.
При создании этой технологии разработчики ориентировались на способности человека: к примеру, по изображению стола с тремя ножками большинство людей интуитивно дорисуют в своём воображении четвертую ножку.
Эти задачи кажутся легкими для людей, но они являются сложным вызовом для ИИ. Современные системы визуального распознавания создаются при помощи больших наборов данных, сделанных людьми. Создание этих наборов – дорогостоящий и трудоемкий процесс. Как результат, ИИ фиксирует только определенные кусочки целой сцены.
Специалисты из DeepMind представили Generative Query Network (GQN) – сеть, при помощи которой ИИ научится определять увиденное, создавая данные про объект самостоятельно.
Модель GQN состоит из сети представления и сети генерации. Первая сеть берет на себя функцию наблюдения: создает представление о сцене, которую видит. Затем сеть генерации предсказывает («воображает») остальные части сцены, основываясь на уже увиденной информации.

Сеть представления не знает, какие точки зрения запросит сеть генерации для прогнозирования, поэтому она должна найти эффективный способ описания истинного расположения сцены как можно точнее. Он делает это, захватывая наиболее важные элементы: позиции объектов, цвета и макет комнаты.
Исследователи научили ИИ представлять сцену под другим углом, принимая во внимание перспективу, тень и другие визуальные эффекты.
“Один из самых удивительных результатов мы получили, когда увидели, что ИИ может предсказывать такие вещи, как перспектива, окклюзия, освещение и тени”, – рассказали в компании.