Представете си, че шумните акорди на тръбен орган отекват в кавернозното светилище на масивна каменна катедрала.
Звукът, чуван от посетителите на катедралата, се влияе от много фактори, включително местоположението на органа, къде стои слушателят, дали има колони, пейки или други препятствия, стоящи между тях, какви стени, местоположението на прозорците или вратите и т.н. , може да помогне да чуете звука на човек, за да възприемете околната среда.
Изследователи от MIT и MIT-IBM Watson AI Lab изследват използването на акустична пространствена информация, за да помогнат на машините да визуализират по-добре и средата си. Те са разработили модел за машинно обучение, който може да улови как всеки звук в стая се разпространява в пространството, позволявайки на модела да симулира това, което слушателят може да чуе на различни места.
Чрез прецизно моделиране на акустиката на сцена, системата може да научи основната 3D геометрия на стая от аудиозаписите. Изследователите могат да използват звукова информация, уловена от тяхната система, за да изградят точни визуални представяния на стая, подобно на това как хората използват звук, когато оценяват характеристиките на тяхната физическа среда.
В допълнение към потенциалните си приложения във виртуалната и разширената реалност, тази технология може да помогне на клиентите на AI да развият по-добро разбиране на света около тях. Например, чрез моделиране на акустичните свойства на звука в неговата среда, един робот за подводно изследване може да усеща нещата далеч отвъд това, което може да усети само с визия, казва Yilon Do, завършил студент в катедрата по електротехника и компютърни науки (EECS) и съавтор на хартия Описание на модела.
Повечето изследователи досега са се фокусирали само върху моделирането на зрението. Но като хора ние имаме мултимодално възприятие. Важно е не само зрението, но и звукът. Мисля, че тази работа открива една вълнуваща изследователска посока за по-добро използване на звука за моделиране на света“, казва Доу.
Към Доу в статията се присъединява водещият автор Андрю Ло, завършил студент в университета Карнеги Мелън (CMU); Майкъл К. Тар, Кавчич-Моура, професор по когнитивни и мозъчни науки в университета Карнеги Мелън; Старши автор Джошуа Б. Антонио Торалба, професор по електротехника и компютърни науки в Delta Electronics и член на CSAIL; и Chuang Gan, член на главен изследователски екип в MIT-IBM Watson AI Lab. Изследването ще бъде представено на конференцията Neuroinformation Processing Systems.
звук и визия
В изследванията на компютърното зрение се използва вид модел на машинно обучение, наречен имплицитен модел на невронно представяне, за създаване на плавни и непрекъснати реконструкции на 3D сцени от изображения. Тези модели използват невронни мрежи, които съдържат слоеве от взаимосвързани възли или неврони, които обработват данни за изпълнение на задача.
Изследователите от MIT използваха същия тип модели, за да уловят как звукът непрекъснато пътува през сцена.
Но те откриха, че визуалните модели се възползват от свойство, известно като оптична консистенция, което не се отнася за звука. Ако човек погледне един и същ обект от две различни места, обектът изглежда почти еднакъв. Но с аудиото промяната на местоположението и звукът, който чува, могат да бъдат много различни поради препятствия, разстояние и т.н. Това прави прогнозирането на звук много трудно.
Изследователите преодоляват този проблем, като включват две свойства на звука в своя модел: взаимната природа на звука и ефекта от локалните геометрични характеристики.
Звукът е реципрочен, което означава, че ако източникът на звука и слушателят разменят позиции, това, което човекът чува, не се променя. Освен това това, което човек чува в определен район, е силно повлияно от местни характеристики, като например препятствие между слушателя и източника на звука.
За да включат тези два фактора в своя модел, наречен невронно акустично поле (NAF), те допълват невронната мрежа с мрежа, която улавя обекти и архитектурни характеристики в сцена, като врати или стени. Моделът произволно взема проби от точки в тази решетка, за да види функции в определени места.
“Ако си представите, че стоите близо до вход, това, което чувате, най-силно влияе върху това, което чувате, е присъствието на този вход, а не непременно геометричните елементи, които са по-далеч от вас от другата страна на стаята. Открихме, че тази информация позволява по-добро обобщение от обикновена напълно свързана мрежа”, казва той. Казва Лу.
От предвиждане на звуци до визуализиране на сцени
Изследователите могат да захранват NAF с визуална информация за сцена и няколко спектра, които показват как ще звучи звукът, когато излъчвателят и слушателят са на целеви места в стаята. След това моделът предвижда как ще звучи този звук, ако слушателят се премести в която и да е точка от сцената.
NAF произвежда импулсен отговор, който улавя как звукът трябва да се промени, докато се разпространява през сцената. След това изследователите прилагат този импулсен отговор към различни звуци, за да чуят как тези звуци трябва да се променят, когато човек влезе в стаята.
Например, ако се възпроизведе песен от високоговорител в центъра на стаята, техният модел ще покаже как този звук се повишава, когато човек се приближи до високоговорителя, и след това става заглушен, когато излезе в съседен коридор.
Когато изследователите сравняват своя метод с други методи, които моделират акустична информация, те създават по-точни акустични модели при всяко състояние. Тъй като научи местна инженерна информация, техният модел успя да обобщи нови местоположения в пейзаж много по-добре от други методи.
Освен това те откриха, че прилагането на акустичната информация, която техният модел научава към модел на компютърно зрение, може да доведе до по-добра визуална реконструкция на сцената.
“Когато имате само няколко изобразявания, използването на тези аудио функции ви позволява да уловите по-отчетливо границите, например. Това вероятно е така, защото за да изобразите точно акустиката на сцена, трябва да заснемете основната 3D геометрия на тази сцена” , казва Доу.
Изследователите планират да продължат да подобряват модела, докато не може да се обобщи за изцяло нови сцени. Те също така искат да приложат тази технология към по-сложни импулсни реакции и по-големи сцени, като цели сгради или дори град или град.
„Тази нова технология може да отвори нови възможности за създаване на завладяващо мултимедийно изживяване в приложението за метавселена“, добавя Ган.
“Моята група свърши много работа по използването на методи за машинно обучение за ускоряване на ономатопеята или моделиране на акустиката на сцени от реалния свят. Ясно е, че този документ на Chuang Gan и неговите съавтори е огромна стъпка напред в тази посока .” “По-специално, тази статия представя хубаво имплицитно представяне, което може да улови как звукът може да се разпространява в сцени от реалния свят, като го моделира с помощта на постоянна във времето линейна система. Тази работа може да има много приложения в AR/VR, както и разбирането на световната сцена .Истински.”
Тази работа е подкрепена отчасти от MIT-IBM Watson AI Lab, Tianqiao Institute и Chrissy Chen.