이해냐 생성이냐는 틀린 질문: 멀티모달 통합 모델은 '생성세' 없이 둘 다 잘할 수 있나

SenseNova-U1은 멀티모달 이해와 생성을 하나의 과정으로 통합하면서도, 이해 전용 VLM과 동등한 성능을 유지하는 SenseTime의 2026년 네이티브 통합 모델이다. 5월 12일 공개된 이 모델은 이해 백본에 생성 헤드를 덧붙이는 기존 방식이 표현 공간을 어긋나게 만든다고 지적하며, 네이티브 Mixture-of-Transformers(MoT)로 이해와 생성을 한 과정의 두 시각으로 다룬다. 핵심은 통합 모델이 흔히 치르는 '생성세(generation tax)'를 내지 않는다는 점이다.

'생성세'라는 말부터 뜯어보기

먼저 용어를 분명히 할 필요가 있다. '생성세'는 세금이라는 은유지만, 실제로는 한 모델에 그림 그리기를 가르치면 보고 추론하는 능력이 떨어지는 성능 상충을 가리킨다. SenseNova-U1 이전 통합 모델 대부분은 이해 백본 위에 생성 헤드를 따로 붙인 구조라, 두 표현 공간이 어긋나는 구조적 문제를 안고 있다.

SenseTime의 Haiwen Diao, Penghao Wu 등 연구진은 이 어긋남이 단순한 학습 부족이 아니라 설계상의 분리에서 온다고 본다. 즉 데이터를 더 넣거나 오래 돌린다고 사라지는 문제가 아니라, 애초에 두 능력을 다른 방에 넣어둔 배치의 문제라는 진단이다. 그 결과 생성 능력을 더할수록 이해·추론 성능이 깎이는 '생성세'가 발생한다.

한 백본, 두 스트림: MoT가 노리는 지점

네이티브 Mixture-of-Transformers(MoT)는 이해 스트림과 생성 스트림을 단일 백본 안에 두되, 공유 어텐션으로 계속 상호작용시키는 구조다. 2026년 공개된 SenseNova-U1은 별도의 비전 인코더(VE)나 VAE 없이 픽셀과 텍스트 입력을 직접 처리하며, 이 MoT를 NEO-unify라는 네이티브 통합 패러다임 위에 올린다.

두 스트림은 같은 토큰 시퀀스와 어텐션 구조를 공유하지만, 이해용·생성용 파라미터는 분리된다. 어긋남의 원인이 '분리'였는데 다시 파라미터를 나눈다는 점이 얼핏 모순처럼 보인다. 그러나 이 설계의 핵심은 파라미터가 아니라 어텐션을 공유하는 데 있다. 각 능력은 자기 가중치를 갖되 같은 문맥 위에서 서로를 참조하므로, 이해와 생성이 한 과정의 두 시각으로 함께 진화한다.

작동 방식은 세 단계로 요약된다.

근사 무손실 비전 인터페이스: 2층 컨볼루션 인코딩과 MLP형 디코딩으로 픽셀을 직접 받아 정보 손실을 최소화한다.
네이티브 MoT 백본: 이해·생성 스트림을 내부적으로 분리하되 공유 어텐션으로 연결한다.
X2I 생성: 텍스트·이미지 등 어떤 입력에서든 이미지를 생성하는 any-to-image를 단일 모델로 수행한다.

벤치마크가 말하는 것과 말하지 않는 것

SenseNova-U1은 텍스트 이해, 비전-언어 인식, 지식 추론, 에이전트 의사결정, 공간 지능 전반에서 최상위 이해 전용 VLM에 필적하면서, 동시에 강력한 any-to-image(X2I) 생성 성능을 냈다. 즉 생성 능력을 더하고도 이해 쪽이 깎이지 않았다는 것이 핵심 주장이다.

이를 비교하면 통합 모델의 통념이 뒤집힌다.

항목	기존 통합 모델	SenseNova-U1
구조	이해 백본 + 생성 헤드(분리)	NEO-unify · 네이티브 MoT
표현 공간	어긋남	공유 어텐션으로 정렬
이해 성능	생성 추가 시 하락(생성세)	이해 전용 VLM과 동등
생성	별도 헤드	단일 모델 X2I

다만 표를 읽을 때 주의할 대목이 있다. '필적한다', '동등하다'는 표현은 비교 대상이 되는 이해 전용 VLM이 무엇이냐에 따라 체감이 달라진다. 최상위와 동급이라도 어떤 세부 과제에서는 근소하게 앞서고 다른 과제에서는 근소하게 뒤질 수 있으며, '생성세 없음'은 평균적 인상이지 모든 지표에서의 무손실을 뜻하지는 않는다.

어떤 규모로 공개됐나

SenseNova-U1은 8B 밀집형과 30B-A3B 전문가혼합(MoE) 두 가지 이해 베이스라인 위에 구축된 두 변형으로 공개됐다. 각각 SenseNova-U1-8B-MoT, SenseNova-U1-A3B-MoT이며, SenseTime이 완전 오픈소스로 풀었다.

규모를 정리하면 다음과 같다.

SenseNova-U1-8B-MoT: 8B 밀집 이해 베이스라인 기반.
SenseNova-U1-A3B-MoT: 30B-A3B MoE 베이스라인 기반(활성 파라미터 3B대).
공통: NEO-unify 위 네이티브 MoT, X2I 생성 내장.

한국 실무자에게 남는 함의

완전 오픈소스라는 점은 국내 팀에게 특히 실용적이다. 8B 밀집형은 단일 GPU급 환경에서도 실험 여지가 있고, 30B-A3B는 활성 파라미터가 3B대라 총 파라미터 대비 추론 비용을 낮게 가져갈 수 있는 MoE의 이점을 그대로 노린다. 이해와 생성을 별도 모델로 이중 운영하던 파이프라인을 한 모델로 합칠 수 있다면, 서빙 스택과 유지보수 부담이 줄어든다.

물론 판단은 자체 데이터로 다시 해야 한다. 이해와 생성을 한 모델에 묶는 것이 언제나 최적은 아니며, 한국어·도메인 특화 과제에서 얼마나 유지되는지는 직접 재현으로 확인할 몫이다. 이 결과가 SenseTime이 제시한 벤치마크와 설계 주장에 기반하는 만큼, 과제별·평가별로 결과가 달라질 수 있다는 점을 전제로 두는 편이 안전하다.

SenseNova-U1의 진짜 의미는 '이해냐 생성이냐'라는 양자택일이 틀린 질문임을 보인 데 있다. 2026년 시점에서 이해와 생성을 한 과정으로 묶고도 이해 성능을 지켰다는 것은, 통합이 곧 손해라는 통념을 구조적으로 반박한다.

참고: SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture (Diao, Wu et al., SenseTime, 2026)