Mirage의 잠재 공간 메모리란 무엇인가요?

Mirage는 영상 월드 모델의 3D 공간 기억을 RGB 점구름이 아니라 확산 모델의 잠재 공간에 직접 캐싱하는 방법입니다. 본 잠재 토큰을 깊이 기반 역투영으로 3D에 저장하고, 새 시점은 잠재 와핑으로 질의해, 매 스텝 픽셀로 렌더링하고 재인코딩하는 왕복을 없앱니다.

Mirage는 기존 방식보다 얼마나 빠르고 가벼운가요?

Microsoft Research 등이 2026년 공개한 논문(arXiv 2606.09828)에 따르면 Mirage는 기존 RGB 점구름 메모리 대비 생성 속도를 최대 10.6배(10.57배) 높이고 GPU 메모리를 최대 55배 줄이면서, 공간 일관성 벤치마크 WorldScore에서 최고 점수를 기록했습니다.

기존 RGB 점구름 메모리의 문제는 무엇인가요?

기존 방식은 본 장면을 RGB 점구름으로 저장하고, 새 시점이 필요할 때마다 점구름을 래스터화한 뒤 다시 잠재로 재인코딩하는 왕복을 거칩니다. 이 왕복은 프레임당 연산량을 키우고, 픽셀 공간을 거치며 잠재 정보가 손실돼 일관성이 흔들리는 문제를 낳습니다.

다음 세대 월드 모델은 세계를 픽셀이 아닌 '잠재 3D'로 기억한다: Mirage가 증명한 잠재 공간 메모리

Mirage는 영상 월드 모델의 공간 기억을 RGB 점구름이 아니라 확산 모델의 잠재 공간에 직접 캐싱하는 새 방법이다. Microsoft Research·저장대·애들레이드·모나시 공동 연구진이 2026년 6월 공개한 이 논문(arXiv 2606.09828)은 매 스텝 픽셀로 다시 렌더링하고 재인코딩하는 왕복을 없애, 생성 속도를 최대 10.6배 높이고 메모리를 최대 55배 줄이면서 WorldScore 벤치마크에서 최고 점수를 기록했다. 핵심 메시지는 단순하다. 공간 기억은 픽셀 공간에 살 필요가 없다.

표류(drift)라는 오래된 골칫거리

긴 호흡의 영상 월드 모델이 풀어야 할 핵심 난제는 카메라가 돌아왔을 때 같은 장면을 다시 일관되게 그려내는 '공간 일관성'이다. 단일 이미지와 카메라 경로만 주어진 상태에서 새 시점을 계속 생성하다 보면, 모델은 앞서 본 모서리 너머를 잊고 장면이 표류(drift)한다.

이 문제가 지금 다시 조명받는 이유는 월드 모델이 감상용 영상 생성기에서 조작 가능한 시뮬레이터로 넘어가고 있기 때문이다. 사용자가 자유롭게 시점을 돌리는 순간, "왔던 곳이 그대로 있는가"는 미관이 아니라 신뢰의 문제가 된다.

기존 해법은 명시적 기억을 둔다. 본 장면을 RGB 색을 입힌 3D 점구름으로 저장해 두고, 새 시점이 필요하면 그 점구름을 렌더링해 다시 모델 입력으로 넣는다.

픽셀을 경유하는 기억의 두 겹 세금

기존 RGB 점구름 메모리의 병목은 매 스텝마다 일어나는 '래스터화-재인코딩 왕복'이다. 점구름을 픽셀 이미지로 래스터화한 뒤, 그 이미지를 다시 확산 모델의 잠재로 인코딩해야 하므로 스텝마다 무거운 디코드·렌더·인코드 연산이 반복된다.

이 왕복은 두 가지 세금을 매긴다.

연산 비용: 잠재 → 픽셀 → 잠재로 두 번 변환하느라 프레임당 계산량이 커진다.
정보 손실: 픽셀 공간을 거치며 확산 모델이 쓰던 잠재 정보가 깎여 일관성이 흔들린다.

주목할 점은 이 둘이 트레이드오프가 아니라는 것이다. 픽셀을 경유하면 느려지는 동시에 부정확해진다. 그래서 왕복을 없애는 시도는 속도와 품질을 함께 손볼 여지를 남긴다.

기억의 단위를 픽셀에서 잠재로 옮긴다

Mirage의 핵심 아이디어는 3D 기하 정보를 픽셀이 아니라 확산 잠재 공간에 직접 쌓는 것이다. 모델이 본 잠재 토큰을 깊이 기반 역투영(depth-guided back-projection)으로 3D 좌표에 올려 캐시를 구성하고, 새 시점이 필요하면 그 잠재 캐시를 직접 잠재 와핑(latent warping)으로 투영해 질의한다.

절차는 세 단계로 요약된다.

저장: 생성된 잠재 토큰을 깊이로 역투영해 3D 위치에 잠재 그대로 캐싱한다.
질의: 새 카메라 시점에 맞춰 잠재 캐시를 단일 잠재 해상도 투영으로 와핑한다.
생성: 와핑된 잠재를 조건으로 다음 프레임을 만들어, 픽셀로 내려갔다 오는 왕복 없이 일관성을 유지한다.

발상 자체는 단순하지만 함의는 크다. 기존 방식이 "본 것을 그림으로 저장했다가 다시 그려 보여준다"였다면, Mirage는 "본 것을 모델의 언어(잠재) 그대로 저장했다가 그 언어로 되돌려준다"에 가깝다. 잠재를 한 번도 픽셀로 풀지 않으니 래스터화-재인코딩 왕복 자체가 사라진다.

10.6배·55배라는 숫자를 어떻게 읽을까

Mirage는 2026년 기준 공간 일관성 표준 벤치마크인 WorldScore에서 최고(SOTA) 점수를 기록하면서 동시에 더 빠르고 더 가볍다. 같은 일관성을 유지하면서 생성 속도는 최대 10.6배(논문 수치 10.57배) 빨라지고, GPU 메모리 사용은 최대 55배 줄어든다.

숫자를 읽을 때 유의할 지점은 '최대'라는 단서다. 이는 여러 조건 중 가장 유리한 지점에서의 수치일 가능성이 높으므로, 평균적 이득은 이보다 완만할 수 있다. 그럼에도 인상적인 대목은 속도·메모리·일관성이 서로를 깎아먹지 않고 함께 개선됐다는 점이다. 보통 이 셋 중 하나를 밀면 다른 하나가 밀리는데, 표현 단위를 바꾸는 접근이 그 상충을 우회했다.

항목	기존 RGB 점구름 메모리	Mirage 잠재 공간 메모리
기억 저장 공간	픽셀 공간(RGB 점구름)	확산 잠재 공간(3D 캐시)
시점 질의 방식	래스터화 후 재인코딩 왕복	단일 잠재 해상도 와핑
생성 속도	기준	최대 10.6배 빠름
메모리 사용	기준	최대 55배 작음
WorldScore	비교 대상	최고 점수(SOTA)

한국 개발 현장에 주는 함의와 남은 질문

Mirage의 진짜 시사점은 "공간 기억의 표현 단위를 한 단계 추상화하면 속도·메모리·일관성을 동시에 잡을 수 있다"는 점이다. 픽셀이라는 직관적이지만 무거운 표현을 버리고, 모델이 이미 쓰는 잠재 표현 위에서 기억을 관리한 것이 10.6배·55배라는 수치로 돌아왔다.

메모리를 55배 줄인다는 대목은 GPU 예산이 빠듯한 국내 스타트업과 연구실에 특히 실질적이다. 인터랙티브 시뮬레이터나 게임형 콘텐츠를 노린다면, 고급 카드 없이도 긴 시점 이동을 버티는 구성이 열릴 수 있다는 신호로 읽을 만하다.

다만 ASAP의 관점에서 짚을 한계는 분명하다. 이 방식은 깊이 추정 품질과 카메라 경로 설정에 의존하는 단일 논문의 보고치다. 깊이가 틀리면 잠재를 엉뚱한 3D 위치에 저장하게 되고, 그 오차가 픽셀 왕복 없이 곧장 다음 프레임으로 전파될 수 있다. 다른 장면·해상도, 그리고 급격한 시점 변화에서의 재현은 후속 검증이 필요하다. "픽셀을 거치지 않아 정보 손실이 없다"는 강점이 "픽셀이라는 검산 단계도 없다"는 약점으로 뒤집힐 여지가 열린 질문으로 남는다.

참고: Latent Spatial Memory for Video World Models (Weijie Wang et al., 2026) · 프로젝트 페이지