ASAPAi Soon As Possible · AI·테크 이슈를 가장 빠르게
Article

다음 세대 월드 모델은 세계를 픽셀이 아닌 '잠재 3D'로 기억한다: Mirage가 증명한 잠재 공간 메모리

AASAP
2026-06-19 · 3분 읽기

Mirage는 영상 월드 모델의 공간 기억을 RGB 점구름이 아니라 확산 모델의 잠재 공간에 직접 캐싱하는 새 방법입니다. Microsoft Research·저장대·애들레이드·모나시 공동 연구진이 2026년 6월 공개한 이 논문(arXiv 2606.09828)은 매 스텝 픽셀로 다시 렌더링하고 재인코딩하는 왕복을 없애, 생성 속도를 최대 10.6배 높이고 메모리를 최대 55배 줄이면서 WorldScore 벤치마크에서 최고 점수를 기록했습니다. 핵심 메시지는 단순합니다. 공간 기억은 픽셀 공간에 살 필요가 없습니다.

월드 모델의 공간 기억 문제는 무엇인가

긴 호흡의 영상 월드 모델이 풀어야 할 핵심 난제는 카메라가 돌아왔을 때 같은 장면을 다시 일관되게 그려내는 '공간 일관성'입니다. 단일 이미지와 카메라 경로만 주어진 상태에서 새 시점을 계속 생성하다 보면, 모델은 앞서 본 모서리 너머를 잊고 장면이 표류(drift)합니다.

기존 해법은 명시적 기억을 둡니다. 본 장면을 RGB 색을 입힌 3D 점구름으로 저장해 두고, 새 시점이 필요하면 그 점구름을 렌더링해 다시 모델 입력으로 넣습니다.

기존 RGB 점구름 방식은 왜 느린가

기존 RGB 점구름 메모리의 병목은 매 스텝마다 일어나는 '래스터화-재인코딩 왕복'입니다. 점구름을 픽셀 이미지로 래스터화한 뒤, 그 이미지를 다시 확산 모델의 잠재로 인코딩해야 하므로 스텝마다 무거운 디코드·렌더·인코드 연산이 반복됩니다.

이 왕복은 두 가지 비용을 만듭니다.

  1. 연산 비용: 잠재 → 픽셀 → 잠재로 두 번 변환하느라 프레임당 계산량이 커집니다.
  2. 정보 손실: 픽셀 공간을 거치며 확산 모델이 쓰던 잠재 정보가 깎여 일관성이 흔들립니다.

Mirage는 어떻게 잠재 공간에 기억을 캐싱하는가

Mirage의 핵심 아이디어는 3D 기하 정보를 픽셀이 아니라 확산 잠재 공간에 직접 쌓는 것입니다. 모델이 본 잠재 토큰을 깊이 기반 역투영(depth-guided back-projection)으로 3D 좌표에 올려 캐시를 구성하고, 새 시점이 필요하면 그 잠재 캐시를 직접 잠재 와핑(latent warping)으로 투영해 질의합니다.

절차는 세 단계로 요약됩니다.

  1. 저장: 생성된 잠재 토큰을 깊이로 역투영해 3D 위치에 잠재 그대로 캐싱합니다.
  2. 질의: 새 카메라 시점에 맞춰 잠재 캐시를 단일 잠재 해상도 투영으로 와핑합니다.
  3. 생성: 와핑된 잠재를 조건으로 다음 프레임을 만들어, 픽셀로 내려갔다 오는 왕복 없이 일관성을 유지합니다.

이렇게 잠재를 한 번도 픽셀로 풀지 않으니 래스터화-재인코딩 왕복 자체가 사라집니다.

Mirage의 성능은 기존 방식과 어떻게 다른가

Mirage는 2026년 기준 공간 일관성 표준 벤치마크인 WorldScore에서 최고(SOTA) 점수를 기록하면서 동시에 더 빠르고 더 가볍습니다. 같은 일관성을 유지하면서 생성 속도는 최대 10.6배(논문 수치 10.57배) 빨라지고, GPU 메모리 사용은 최대 55배 줄어듭니다.

항목기존 RGB 점구름 메모리Mirage 잠재 공간 메모리
기억 저장 공간픽셀 공간(RGB 점구름)확산 잠재 공간(3D 캐시)
시점 질의 방식래스터화 후 재인코딩 왕복단일 잠재 해상도 와핑
생성 속도기준최대 10.6배 빠름
메모리 사용기준최대 55배 작음
WorldScore비교 대상최고 점수(SOTA)

이 연구가 주는 시사점은 무엇인가

Mirage의 진짜 시사점은 "공간 기억의 표현 단위를 한 단계 추상화하면 속도·메모리·일관성을 동시에 잡을 수 있다"는 점입니다. 픽셀이라는 직관적이지만 무거운 표현을 버리고, 모델이 이미 쓰는 잠재 표현 위에서 기억을 관리한 것이 10.6배·55배라는 수치로 돌아왔습니다.

이는 게임·시뮬레이션·로보틱스용 인터랙티브 월드 모델로 갈수록 중요해집니다. 다만 이 결과는 깊이 추정 품질과 카메라 경로 설정에 의존하는 단일 논문의 보고치이므로, 다른 장면·해상도에서의 재현은 후속 검증이 필요합니다.


참고: Latent Spatial Memory for Video World Models (Weijie Wang et al., 2026) · 프로젝트 페이지

← 전체 글 보기