Если вы можете распознать структуры вокруг вас, идя по городской улице, вы благодарны этому своим глазам. Люди могут автоматически воспринимать трехмерную структуру в мире, определяя линии, формы, симметрии и закономерности и отношения между ними в таких вещах, как здания, тротуары и предметы быта. Но может ли компьютер учиться делать то же самое?

Zihan Zhou, доцент информационных наук и технологий в штате Пенсильвания, собирается изучить этот вопрос благодаря недавнему гранту Национального научного фонда.

«Мы хотим, чтобы компьютер видел трехмерное пространство, как это делают люди», — сказал Чжоу. «Эта особая награда и проект связаны с восприятием структуры, которое в основном игнорировалось в трехмерном видении. Это то, чего раньше не было».

Структурное восприятие — это способность глаз человека организовывать данные или шаблоны и группировать их определенным образом. Например, человек может посмотреть на линейный рисунок здания и визуализировать двери, окна и стены.

«В реальном мире существует много типов этих отношений, и люди используют эти отношения для восприятия трехмерного пространства», — сказал он. «Человеческие глаза могут легко воспринимать такие вещи. Вопрос в том, может ли компьютер обладать способностью воспринимать эти вещи так, как это делает человек?»

Чтобы ответить на этот вопрос, Чжоу планирует разработать новую структуру данных для обнаружения структуры, используя доступность массивных визуальных данных и последние достижения в методах машинного обучения.

Эти методы затем могут быть применены к широкому спектру проблем компьютерного зрения в реальном мире , включая трехмерное моделирование городской среды, виртуальную и дополненную реальность и автономное вождение. Исследование может также повлиять на когнитивные науки, предлагая новые вычислительные механизмы для понимания образов; и человеко-роботовое взаимодействие , позволяя роботам рассуждать с точки зрения геометрической формы, физики и динамики.

«Если робот распознает что-то как определенный тип структуры, то он знает, как с ним взаимодействовать», — сказал Чжоу. «Например, если робот способен распознать структуру с плоской вершиной, он будет знать, что он может наложить на нее объект, похожий на чашку».

Кроме того, структура может повлиять на работу архитекторов, дизайнеров и инженеров.

«Если вы думаете об этих архитекторах, они ежедневно работают с трехмерными моделями», — сказал Чжоу. «Если они что-то создают, они сначала создают линейные чертежи. Поэтому, если компьютер может понять двери и окна на чертежах, это будет очень полезно для архитектурного проектирования и проектирования».

Чжоу проявил интерес к этой теме, в то время как аспирантка в Adobe. В своей интернатуре он изучал связь между движением камеры и окружающей средой, что могло помочь киноиндустрии проанализировать сцены.

«Я попытался извлечь некоторые виды структур из видео и последовательности камеры», — сказал он. «В этот момент это было для анализа траектории камеры для киноиндустрии, но позже мы поняли, что это более систематично».

Теперь, в штате Пенн, Чжоу надеется использовать междисциплинарную сеть для продвижения своей работы.

«У IST есть люди, работающие в разных областях, и на многих из них может влиять такая работа», — сказал он. «Это вызвало большой интерес в разных областях. Мы стремимся расширить это за пределы и найти приложения, чтобы сделать это более совместным».

«Около 70 процентов информации мы получаем от визуальных сигналов от наших глаз», — заключил он. «Очевидно, что у нас есть области, такие как обработка естественного языка, чтобы помочь понять речь и звуки, но человеческое видение является доминирующим фактором в том, как мы понимаем этот мир. Чтобы компьютер видел мир, как мы делаем, это одна из самых захватывающих областей в искусственном интеллекте и информатика».

По материалам phys.org