Исследователи из Facebook, Техасского университета в Остине и Университета Карнеги-Меллона разработали нейросеть, которая использует визуальные и звуковые эффекты из короткого видеоклипа для восстановления плана целого этажа. Ее можно будет применять для визуализации пространств, планирования маршрутов и разработки архитектурных проектов.
Обычно создание планов этажей требует полного пошагового руководства, чтобы 3D-датчики и камеры могли запечатлеть все пространство. Однако в новой системе нейросеть обрабатывает пространственные и семантические сигналы.
Как отмечают авторы разработки, звук по своей природе определяется геометрией объектов. Отражения звука раскрывают форму комнаты далеко за пределами поля зрения камеры.
Подход исследователей, который они назвали AV-Map, направлен на преобразование коротких видеороликов с многоканальным звуком в двухмерные планы этажей. Модель машинного обучения использует последовательности аудио- и визуальных данных, чтобы понять структуру и семантику плана этажа, объединяя информацию из аудио и видео с помощью компонента декодера. Планы этажей, генерируемые AV-Map, показывают свободное пространство и области, поделенные дискретным набором семантических меток комнат (например, гостиная и кухня).
Команда экспериментировала с популярными наборами данных Matternet3D и SoundSpaces, загруженных в AI Habitat Facebook. В первом они использовали виртуальную камеру, чтобы зафиксировать известный звук, пока он перемещался по комнате. Во втором они полагались только на естественные звуки, издаваемые предметами и людьми внутри дома.
Исследователи говорят, что в видеороликах, записанных в 85 больших реальных многокомнатных средах AI Habitat, AV-Map превзошел традиционное картографирование. С помощью звуков, охватывающих 26% площади, нейросеть может оценить всю площадь с точностью 66%.
Теперь авторы разработки планируют изучить возможности расширения планов на несколько этажей.