Помощь машинам в понимании некоторых законов физики

Помощь машинам в понимании некоторых законов физики

Теперь исследователи Массачусетского технологического института разработали модель, которая демонстрирует понимание некоторых основ "интуитивной физики" того, как объекты должны себя вести. Модель может быть использована для создания более умного искусственного интеллекта и, в свою очередь, для предоставления информации, которая поможет ученым понять познавательные способности младенцев.
Модель, называемая ADEPT, наблюдает за объектами, движущимися по сцене, и делает прогнозы о том, как объекты должны вести себя, на основе их физических свойств. При отслеживании объектов модель выдает сигнал на каждом кадре видео, который соответствует уровню "неожиданности" – чем больше сигнал, тем сильнее удивление.

Если объект когда-либо резко не соответствует прогнозам модели – например, исчезает или телепортируется через сцену – его уровни неожиданности резко возрастут.
В ответ на видео, показывающие объекты, движущиеся физически правдоподобными и неправдоподобными способами, модель зафиксировала уровни удивления, которые соответствовали уровням, о которых сообщили люди, которые смотрели те же видео.
«К тому времени, когда младенцам исполняется 3 месяца, у них есть некоторое представление о том, что объекты не появляются и не исчезают, не могут перемещаться друг через друга или телепортироваться», – говорит первый автор Кевин А. Смит, научный сотрудник Департамента мозговых и когнитивных наук (BCS) и член Центра мозга, разума и машин (CBMM). «Мы хотели зафиксировать и формализовать эти знания, чтобы внедрить познавательные способности младенцев в агентов искусственного интеллекта. Теперь мы приближаемся к человеческому в том, как модели могут различать базовые неправдоподобные или правдоподобные сцены."

К Смиту в работе присоединились соавторы Линцзе Мэй, студент факультета электротехники и информатики, и научный сотрудник BCS Шунью Яо; Цзяцзюнь Ву, доктор философии ’19; Следователь CBMM Элизабет Спелке; Джошуа Б. Тененбаум, профессор вычислительной когнитивной науки и исследователь в CBMM, BCS и Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и следователь МУП Томер Д. Ульман PhD ’15.

Несоответствие реальности

ADEPT опирается на два модуля: модуль «инверсной графики», который захватывает представления объектов из необработанных изображений, и «физический движок», который прогнозирует будущие представления объектов на основе распределения возможностей.
Инверсная графика в основном извлекает информацию об объектах, такую ​​как форма, поза и скорость, из входных пикселей. Этот модуль захватывает кадры видео как изображения и использует инверсную графику для извлечения этой информации из объектов сцены. Но не зацикливается на деталях.

Для работы ADEPT требуется лишь приблизительная геометрия каждой формы. Отчасти это помогает модели обобщать прогнозы для новых объектов, а не только для тех, на которых она обучена.
"Не имеет значения, является ли объект прямоугольником или кругом, грузовиком или уткой. ADEPT просто видит объект с определенной позицией, движущийся определенным образом, чтобы делать прогнозы », – говорит Смит. "Точно так же младенцы, похоже, не слишком заботятся о некоторых свойствах, таких как форма, при прогнозировании физического состояния."

Эти грубые описания объектов вводятся в физический движок – программное обеспечение, которое имитирует поведение физических систем, таких как твердые или текучие тела, и обычно используется для фильмов, видеоигр и компьютерной графики. Физический движок исследователей "продвигает объекты вперед во времени", – говорит Уллман. Это создает диапазон прогнозов или «распределение убеждений» относительно того, что произойдет с этими объектами в следующем кадре.

Затем модель наблюдает фактический следующий кадр.

Еще раз, он захватывает представления объекта, которые затем выравнивает с одним из предсказанных представлений объекта из его распределения убеждений. Если объект подчиняется законам физики, между двумя представлениями не будет большого несоответствия. С другой стороны, если объект совершил что-то неправдоподобное – скажем, исчез из-за стены – возникнет серьезное несоответствие.
Затем ADEPT выполняет повторную выборку из своего распределения убеждений и отмечает очень низкую вероятность того, что объект просто исчез.

Если вероятность достаточно мала, модель регистрирует большой «сюрприз» как всплеск сигнала. По сути, неожиданность обратно пропорциональна вероятности того, что событие произойдет. Если вероятность очень мала, пик сигнала очень высок.
"Если объект проходит за стеной, ваш физический движок поддерживает убеждение, что объект все еще находится за стеной.

Если стена рушится, а там ничего нет, есть несоответствие », – говорит Уллман. "Затем модель говорит: ‘В моем прогнозе есть объект, но я ничего не вижу. Единственное объяснение – он исчез, так что это удивительно.’"
Нарушение ожиданий

В области психологии развития исследователи проводят тесты на «нарушение ожиданий», в которых младенцам показывают пары видеороликов. Одно видео показывает вероятное событие, в котором объекты придерживаются своих ожидаемых представлений о том, как устроен мир. Другое видео во всех отношениях такое же, за исключением того, что поведение объектов в некотором роде противоречит ожиданиям.

Исследователи часто используют эти тесты, чтобы измерить, как долго ребенок смотрит на сцену после того, как произошло неправдоподобное действие. Исследователи предполагают, что чем дольше они смотрят, тем больше они могут быть удивлены или заинтересованы в том, что только что произошло.

Для своих экспериментов исследователи создали несколько сценариев, основанных на классических исследованиях развития, чтобы изучить основные знания об объектах модели. Они наняли 60 взрослых для просмотра 64 видеороликов с известными физически правдоподобными и физически неправдоподобными сценариями. Например, объекты будут перемещаться за стену, и, когда стена упадет, они останутся там или исчезнут.

Участники оценивали свое удивление в разные моменты по возрастающей шкале от 0 до 100. Затем исследователи показали модели те же видеоролики.

В частности, в сценариях изучалась способность модели улавливать понятия постоянства (объекты не появляются и не исчезают без причины), непрерывности (объекты движутся по связанным траекториям) и твердости (объекты не могут перемещаться друг через друга).
ADEPT особенно хорошо подходил для людей на видео, где объекты перемещались за стенами и исчезали при удалении стены. Интересно, что модель также соответствовала уровням неожиданности на видео, которые не удивили людей, но, возможно, их следовало удивить.

Например, в видео, где объект, движущийся с определенной скоростью, исчезает за стеной и сразу же выходит с другой стороны, объект мог резко ускориться, когда он прошел за стену, или он мог телепортироваться на другую сторону. В целом, люди и ADEPT были менее уверены в том, было ли это событие неожиданным или нет. Исследователи также обнаружили, что традиционные нейронные сети, которые изучают физику на основе наблюдений, но не представляют явным образом объекты, гораздо менее точны в различении неожиданных и неудивительных сцен, а их выбор для неожиданных сцен не часто совпадает с людьми.

Затем исследователи планируют глубже изучить то, как младенцы наблюдают и познают мир, с целью включения любых новых результатов в свою модель. Исследования, например, показывают, что младенцы до определенного возраста на самом деле не очень удивляются, когда предметы полностью меняются в некотором роде – например, если грузовик исчезает за стеной, но появляется снова как утка.

«Мы хотим увидеть, что еще нужно встроить, чтобы понимать мир, более похожий на младенцев, и формализовать то, что мы знаем о психологии, чтобы создать более совершенных агентов ИИ», – говорит Смит.