이해냐 생성이냐는 틀린 질문: 멀티모달 통합 모델은 '생성세' 없이 둘 다 잘할 수 있나
SenseNova-U1은 멀티모달 이해와 생성을 하나의 과정으로 통합하면서도, 이해 전용 VLM과 동등한 성능을 유지하는 SenseTime의 2026년 네이티브 통합 모델입니다. 5월 12일 공개된 이 모델은 이해 백본에 생성 헤드를 덧붙이는 기존 방식이 표현 공간을 어긋나게 만든다고 지적하며, 네이티브 Mixture-of-Transformers(MoT)로 이해와 생성을 한 과정의 두 시각으로 다룹니다. 핵심은 통합 모델이 흔히 치르는 '생성세(generation tax)'를 내지 않는다는 점입니다.
왜 기존 '통합' 모델은 생성세를 냈나
SenseNova-U1 이전 통합 모델 대부분은 이해 백본 위에 생성 헤드를 따로 붙인 구조라, 두 표현 공간이 어긋나는 구조적 문제를 안고 있습니다. SenseTime의 Haiwen Diao, Penghao Wu 등 연구진은 이 어긋남이 단순한 학습 부족이 아니라 설계상의 분리에서 온다고 봅니다. 그 결과 생성 능력을 더할수록 이해·추론 성능이 깎이는 '생성세'가 발생합니다.
이 트레이드오프는 통합 모델의 오랜 약점이었습니다. 한 모델에 그림 그리기를 가르치면 보고 추론하는 능력이 떨어지는 식입니다.
Mixture-of-Transformers는 이해와 생성을 어떻게 통합하나
네이티브 Mixture-of-Transformers(MoT)는 이해 스트림과 생성 스트림을 단일 백본 안에 두되, 공유 어텐션으로 계속 상호작용시키는 구조입니다. 2026년 공개된 SenseNova-U1은 별도의 비전 인코더(VE)나 VAE 없이 픽셀과 텍스트 입력을 직접 처리하며, 이 MoT를 NEO-unify라는 네이티브 통합 패러다임 위에 올립니다.
두 스트림은 같은 토큰 시퀀스와 어텐션 구조를 공유하지만, 이해용·생성용 파라미터는 분리됩니다. 덕분에 이해와 생성이 한 과정의 두 시각으로 함께 진화합니다.
작동 방식은 세 단계로 요약됩니다.
- 근사 무손실 비전 인터페이스: 2층 컨볼루션 인코딩과 MLP형 디코딩으로 픽셀을 직접 받아 정보 손실을 최소화합니다.
- 네이티브 MoT 백본: 이해·생성 스트림을 내부적으로 분리하되 공유 어텐션으로 연결합니다.
- X2I 생성: 텍스트·이미지 등 어떤 입력에서든 이미지를 생성하는 any-to-image를 단일 모델로 수행합니다.
'생성세 없음'은 벤치마크로 증명되나
SenseNova-U1은 텍스트 이해, 비전-언어 인식, 지식 추론, 에이전트 의사결정, 공간 지능 전반에서 최상위 이해 전용 VLM에 필적하면서, 동시에 강력한 any-to-image(X2I) 생성 성능을 냈습니다. 즉 생성 능력을 더하고도 이해 쪽이 깎이지 않았다는 것이 핵심 주장입니다.
이를 비교하면 통합 모델의 통념이 뒤집힙니다.
| 항목 | 기존 통합 모델 | SenseNova-U1 |
|---|---|---|
| 구조 | 이해 백본 + 생성 헤드(분리) | NEO-unify · 네이티브 MoT |
| 표현 공간 | 어긋남 | 공유 어텐션으로 정렬 |
| 이해 성능 | 생성 추가 시 하락(생성세) | 이해 전용 VLM과 동등 |
| 생성 | 별도 헤드 | 단일 모델 X2I |
어떤 규모로 공개됐나
SenseNova-U1은 8B 밀집형과 30B-A3B 전문가혼합(MoE) 두 가지 이해 베이스라인 위에 구축된 두 변형으로 공개됐습니다. 각각 SenseNova-U1-8B-MoT, SenseNova-U1-A3B-MoT이며, SenseTime이 완전 오픈소스로 풀었습니다.
규모를 정리하면 다음과 같습니다.
- SenseNova-U1-8B-MoT: 8B 밀집 이해 베이스라인 기반.
- SenseNova-U1-A3B-MoT: 30B-A3B MoE 베이스라인 기반(활성 파라미터 3B대).
- 공통: NEO-unify 위 네이티브 MoT, X2I 생성 내장.
이 통합이 왜 중요한가
SenseNova-U1의 진짜 의미는 '이해냐 생성이냐'라는 양자택일이 틀린 질문임을 보인 데 있습니다. 2026년 시점에서 이해와 생성을 한 과정으로 묶고도 이해 성능을 지켰다는 것은, 통합이 곧 손해라는 통념을 구조적으로 반박합니다. 다만 이는 SenseTime이 제시한 벤치마크와 설계 주장에 기반하며, 과제별·평가별로 결과가 달라질 수 있습니다.