Gated DeltaNet-2는 무엇을 분리했나요?

기존 선형 어텐션이 하나의 스칼라 게이트로 묶어 두던 '지우기'와 '쓰기'를 분리했습니다. KDA의 채널별 감쇠는 유지하면서, 키 축에는 채널별 erase 게이트를, 값 축에는 채널별 write 게이트를 따로 두어 메모리를 편집할 때 기존 연관을 덜 흔듭니다. 두 게이트가 같은 스칼라로 붕괴하면 KDA, 감쇠까지 붕괴하면 Gated DeltaNet이 됩니다.

1.3B/100B 토큰 비교 결과는 어땠나요?

1.3B 파라미터를 100B FineWeb-Edu 토큰으로 학습한 비교에서 Mamba-2·Mamba-3·GDN·KDA를 종합적으로 앞섰습니다. 순환 설정 평균 53.11(Mamba-3 MIMO 52.39, KDA 52.28), 하이브리드 평균 53.97(Mamba-3 MIMO 52.72)이며, RULER 검색에서 S-NIAH-3(2K)는 63.2→89.8, MK-NIAH-1(4K)은 28.0→37.8로 KDA 대비 큰 폭 향상을 보였습니다.

서브쿼드라틱(선형) 어텐션은 긴 문맥을 싸게 처리하지만 고정 메모리를 안전하게 편집하지 못하는 약점이 있었습니다. Gated DeltaNet-2는 지우기와 쓰기의 결합을 끊는 한 개의 명료한 메커니즘 수정으로 이 약점을 직접 겨냥합니다. 다만 수치는 1.3B/100B 규모 결과로, 더 큰 모델 일반화는 추가 검증이 필요합니다.

Gated DeltaNet-2: 지우기와 쓰기를 분리해 선형 어텐션의 기억 문제를 푼 한 줄짜리 수정

Gated DeltaNet-2는 선형 어텐션의 고정 크기 메모리를 갱신할 때 "얼마나 지울지"와 "얼마나 쓸지"를 별도 게이트로 분리한 NVIDIA의 순환 어텐션 레이어이다. 2026년 5월 Ali Hatamizadeh·Yejin Choi·Jan Kautz가 공개한 이 논문은, 기존 Gated DeltaNet과 KDA가 지우기·쓰기를 하나의 스칼라 게이트로 묶어 둔 약점을 채널별 erase 게이트와 채널별 write 게이트로 갈라 해결했다. 그 결과 1.3B 파라미터를 100B 토큰으로 학습한 비교에서 Mamba-2·Mamba-3·GDN·KDA를 모두 앞선다.

고정 크기 메모리를 편집한다는 딜레마

선형 어텐션은 소프트맥스 어텐션의 무한정 늘어나는 캐시를 고정 크기 순환 상태로 바꿔 시퀀스 길이에 선형인 비용을 얻는 구조다. 2026년 기준 Mamba-2, Gated DeltaNet(GDN), KDA가 모두 이 계열에 속하며, 긴 문맥을 상수 메모리로 처리하는 것이 핵심 장점이다.

문제는 상태의 크기가 고정돼 있으니 새 정보를 넣으려면 반드시 기존 무언가를 덜어내야 한다는 점이다. 기존 델타 규칙은 하나의 스칼라 게이트로 "기존 연관을 얼마나 지울지(키 쪽)"와 "새 값을 얼마나 쓸지(값 쪽)"를 동시에 결정한다. 쓰기 강도와 지우기 강도가 한 손잡이에 물려 있으니, 메모리를 편집하려 하면 멀쩡한 기존 기억까지 함께 흔들린다. 무한 캐시를 포기한 대가가 이 편집 정밀도의 손실이었던 셈이다.

손잡이를 둘로 나눈다는 발상

Gated DeltaNet-2의 핵심은 묶여 있던 스칼라 델타 게이트를 두 개의 채널별 게이트로 쪼갠 것이다. KDA가 가진 채널별 감쇠(decay)는 그대로 유지하면서, 키 축에는 채널별 erase 게이트 b_t를, 값 축에는 채널별 write 게이트 w_t를 따로 둔다.

분리의 효과는 메모리 편집의 세분화다. 모델은 감쇠로 넓은 문맥을 비우고(decay), erase로 오래된 특정 연관만 골라 지우고(erase), write로 유지돼야 할 값 채널만 삽입(write)하는 세 동작을 독립적으로 수행한다. 주목할 점은 이 설계가 기존 모델을 특수 사례로 품는다는 것이다. 두 게이트가 같은 스칼라로 붕괴하면 KDA가 되고, 거기서 감쇠까지 붕괴하면 Gated DeltaNet이 된다. 즉 새 규칙이 이전 세대를 부정하지 않고 상위 집합으로 감싸므로, 성능이 나빠질 하한이 원리상 기존 모델과 같다.

단일 게이트와 분리 게이트가 갈라지는 지점

분리 게이트는 단일 스칼라 게이트가 강제하던 "지우는 만큼만 쓴다"는 결합을 끊는다. 아래 표는 GDN·KDA·Gated DeltaNet-2가 메모리 갱신에서 무엇을 채널별로 다루는지 비교한 것이다.

모델	감쇠(decay)	erase·write 게이트
Gated DeltaNet(GDN)	스칼라	단일 스칼라(묶임)
KDA	채널별	단일 스칼라(묶임)
Gated DeltaNet-2	채널별	erase·write 채널별 분리

표를 위에서 아래로 읽으면 자유도가 한 칸씩 늘어나는 궤적이 보인다. GDN은 감쇠도 스칼라, KDA가 감쇠를 채널별로 풀었고, Gated DeltaNet-2가 마지막 남은 결합인 erase·write까지 채널별로 떼어 놓았다. 마지막 행이 이 논문의 한 줄짜리 수정이며, 채널별로 지우기와 쓰기를 떼어 놓으면 새 정보를 써 넣을 때 무관한 기존 연관을 덜 건드린다.

1.3B/100B 토큰 비교에서 얼마나 이겼나

Gated DeltaNet-2는 1.3B 파라미터를 100B FineWeb-Edu 토큰으로 학습한 비교에서 동급 선형 모델 중 종합 1위를 기록한다. 순환(recurrent) 설정에서 LAMBADA와 추론 스위트 평균 53.11을 기록해, Mamba-3 MIMO의 52.39와 KDA의 52.28을 앞선다.

이득이 가장 두드러진 곳은 긴 문맥 검색이다. 주요 수치는 다음과 같다.

하이브리드 설정 평균은 53.97로, Mamba-3 MIMO의 52.72를 상회한다.
RULER 검색 과제 S-NIAH-3(2K)는 KDA 대비 63.2에서 89.8로 오른다.
같은 비교에서 MK-NIAH-1(4K)은 28.0에서 37.8로 오른다.

수치를 어떻게 읽어야 하나

이 표를 읽을 때 종합 평균과 검색 과제 점수를 같은 눈금으로 보면 안 된다. 종합 평균의 격차는 53.11 대 52.28로 1점 미만이라 언어 모델링 자체의 도약이라 부르기엔 작다. 반면 S-NIAH-3(2K)의 63.2에서 89.8은 20포인트가 넘는 도약이고, MK-NIAH-1(4K)의 28.0에서 37.8도 상대적으로 30퍼센트 이상 뛴 값이다.

이 비대칭이 오히려 설계 의도를 뒷받침한다. 지우기와 쓰기를 분리한 목적은 메모리를 덜 흩뜨리는 것인데, 그 효과는 일반 언어 모델링보다 특정 정보를 오래 유지했다가 정확히 꺼내야 하는 검색 과제에서 극대화되기 때문이다. 긴 문맥에서 큰 폭으로 벌어진다는 점이 분리 게이트의 설계 의도와 정확히 맞물린다. 다만 검색 점수의 절대값은 여전히 낮은 편이라, 소프트맥스 어텐션을 대체할 만큼의 완결성을 이 규모에서 입증했다고 보기는 이르다.

국내 연구·실무 관점에서의 함의

한국어권 연구·서빙 현장에도 시사점이 있다. 첫째, 이 결과가 1.3B/100B라는 학술 규모에서 나온 만큼 대규모 파운데이션 모델 없이도 검증 가능한 저비용 실험 영역이라는 점이다. 게이트 구조를 바꾸는 한 줄짜리 수정은 파라미터를 늘리지 않고도 재현·확장을 시도해 볼 여지를 남긴다.

둘째, 긴 문맥 검색 이득은 국내에서 수요가 큰 문서 요약·RAG 서빙과 직결된다. 상수 메모리로 긴 입력을 처리하면서 검색 정확도를 끌어올리는 방향은, 소프트맥스 캐시 비용에 눌려 온 온프레미스·소형 서빙 환경에서 특히 매력적이다.

단, 위 수치는 1.3B/100B 규모의 결과이며 더 큰 모델·다른 데이터에서의 일반화는 추가 검증이 필요하다. Gated DeltaNet-2의 가치는 화려한 구조가 아니라 기억 메커니즘을 겨냥한 한 개의 명료한 수정에 있으며, 서브쿼드라틱 어텐션의 오래된 약점인 "고정 메모리를 안전하게 편집하지 못한다"를 직접 겨냥했다는 데 있다.

참고: Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention (Hatamizadeh, Choi, Kautz, NVIDIA, 2026)