#3D 공간 인식

테크/IT2026-06-08
“텍스트 입력으로 3D 공간의 물체를 찾는 AI 기술 개발”

울산과학기술원(UNIST) 인공지능대학원 주경돈 교수팀이 사용자의 텍스트 입력으로 3D 공간 속 물체를 찾아내는 AI 기술 ‘라이트스플랫'(LightSplat)을 개발했다.

이는 사람의 말이나 문장을 통해 증강현실(AR) 화면이나 로봇이 인식하는 3차원 공간에서 대상을 검색하는 ‘오픈어휘 기반 3D 공간 인식 기술’이다.

라이트스플랫이 해당 물체를 3D 공간에서 선택하고 편집하는 모습 (울산과학기술원 제공)

기존 기술은 의자, 책상, 문처럼 미리 정해진 범주의 물체만 찾을 수 있었다. 반면 라이트스플랫은 ‘흰색 소파’, ‘라면 위 달걀’ 등 더 구체적이고 다양한 표현을 통해 원하는 대상을 검색할 수 있다.

로봇이나 AR 기술에서는 카메라로 들어온 2D 이미지를 기계가 인식할 수 있는 위치·색·투명도 정보를 가진 작은 점 입자(가우시안)들이 모인 3D 공간으로 복원한다.

라이트스플랫의 가장 큰 장점은 효율성이다. 기존 오픈어휘 3D 공간 인식 기술과 비교해 메모리 사용량을 64분의 1 수준으로 낮췄다. 또 3D 가우시안에 의미 정보를 연결해 자연어로 검색 가능하도록 준비하는 시간을 약 5초로 단축했는데, 이는 기존 최신 기술보다 50~400배 빠른 속도다.

이러한 효율성 개선은 기술적 혁신에서 비롯됐다. 기존 기술은 3D 공간의 각 점 입자마다 긴 숫자 형태의 언어 특징값을 저장했다. 라이트스플랫은 각 점 입자에 2바이트짜리 짧은 인덱스만 붙이고, 실제 의미 정보는 별도 표에 저장해 필요할 때 인덱스를 통해 찾아보는 방식을 채택했다. 이로써 3D 공간을 표현하는 데 필요한 메모리를 대폭 감소시켰다.

성능 면에서도 우수하다. 메모리 사용량과 검색 준비 시간을 줄였음에도 인식 성능은 기존 기술보다 뛰어났다. 실제 실험에서 라면 위에 올라간 달걀이나 유리잔에 담긴 차처럼 작은 대상부터 멀리 있는 자동차, 사무실 가구처럼 크기와 배치가 다른 물체까지 정확히 구분해냈다.

주경돈 교수는 “사람의 말로 지시를 바로 수행할 수 있는 인간-기계 상호작용이 강화된 로봇 개발, 텍스트로 대상을 바로 지정해 편집을 돕는 AR·VR 콘텐츠 제작, 디지털 트윈 기술 등에 적용할 수 있을 것”이라고 말했다.

연구 결과는 컴퓨터 비전 분야 권위 있는 학회인 ‘CVPR 2026’에서 발표됐다. CVPR 2026은 지난 3~5일 미국 덴버에서 열렸다. 연구는 과학기술정보통신부와 정보통신기획평가원의 인공지능대학원 지원사업 등을 통해 이뤄졌다.

정도윤