ASAPAi Soon As Possible · AI·테크 이슈를 가장 빠르게
Article

Gated DeltaNet-2: 지우기와 쓰기를 분리해 선형 어텐션의 기억 문제를 푼 한 줄짜리 수정

AASAP
2026-06-19 · 3분 읽기

Gated DeltaNet-2는 선형 어텐션의 고정 크기 메모리를 갱신할 때 "얼마나 지울지"와 "얼마나 쓸지"를 별도 게이트로 분리한 NVIDIA의 순환 어텐션 레이어입니다. 2026년 5월 Ali Hatamizadeh·Yejin Choi·Jan Kautz가 공개한 이 논문은, 기존 Gated DeltaNet과 KDA가 지우기·쓰기를 하나의 스칼라 게이트로 묶어 둔 약점을 채널별 erase 게이트와 채널별 write 게이트로 갈라 해결했습니다. 그 결과 1.3B 파라미터를 100B 토큰으로 학습한 비교에서 Mamba-2·Mamba-3·GDN·KDA를 모두 앞섭니다.

선형 어텐션의 기억은 왜 망가지나

선형 어텐션은 소프트맥스 어텐션의 무한정 늘어나는 캐시를 고정 크기 순환 상태로 바꿔 시퀀스 길이에 선형인 비용을 얻는 구조입니다. 2026년 기준 Mamba-2, Gated DeltaNet(GDN), KDA가 모두 이 계열에 속하며, 긴 문맥을 상수 메모리로 처리할 수 있다는 게 핵심 장점입니다.

문제는 그 고정 상태를 갱신하는 방식에 있습니다. 기존 델타 규칙은 하나의 스칼라 게이트로 "기존 연관을 얼마나 지울지(키 쪽)"와 "새 값을 얼마나 쓸지(값 쪽)"를 동시에 결정해, 메모리를 편집하려 하면 멀쩡한 기존 기억까지 함께 흔들립니다.

Gated DeltaNet-2는 무엇을 분리했나

Gated DeltaNet-2의 핵심은 묶여 있던 스칼라 델타 게이트를 두 개의 채널별 게이트로 쪼갠 것입니다. KDA가 가진 채널별 감쇠(decay)는 그대로 유지하면서, 키 축에는 채널별 erase 게이트 b_t를, 값 축에는 채널별 write 게이트 w_t를 따로 둡니다.

분리의 효과는 메모리 편집의 세분화입니다. 모델은 감쇠로 넓은 문맥을 비우고(decay), erase로 오래된 특정 연관만 골라 지우고(erase), write로 유지돼야 할 값 채널만 삽입(write)하는 세 동작을 독립적으로 수행합니다. 두 게이트가 같은 스칼라로 붕괴하면 KDA가 되고, 거기서 감쇠까지 붕괴하면 Gated DeltaNet이 되는 일반화 관계도 성립합니다.

단일 게이트와 분리 게이트, 무엇이 다른가

분리 게이트는 단일 스칼라 게이트가 강제하던 "지우는 만큼만 쓴다"는 결합을 끊습니다. 아래 표는 GDN·KDA·Gated DeltaNet-2가 메모리 갱신에서 무엇을 채널별로 다루는지 비교한 것입니다.

모델감쇠(decay)erase·write 게이트
Gated DeltaNet(GDN)스칼라단일 스칼라(묶임)
KDA채널별단일 스칼라(묶임)
Gated DeltaNet-2채널별erase·write 채널별 분리

표의 마지막 행이 이 논문의 한 줄짜리 수정입니다. 채널별로 지우기와 쓰기를 떼어 놓으면, 새 정보를 써 넣을 때 무관한 기존 연관을 덜 건드립니다.

1.3B/100B 토큰 비교에서 얼마나 이겼나

Gated DeltaNet-2는 1.3B 파라미터를 100B FineWeb-Edu 토큰으로 학습한 비교에서 동급 선형 모델 중 종합 1위를 기록합니다. 순환(recurrent) 설정에서 LAMBADA와 추론 스위트 평균 53.11을 기록해, Mamba-3 MIMO의 52.39와 KDA의 52.28을 앞섭니다.

이득이 가장 두드러진 곳은 긴 문맥 검색입니다. 주요 수치는 다음과 같습니다.

  1. 하이브리드 설정 평균은 53.97로, Mamba-3 MIMO의 52.72를 상회합니다.
  2. RULER 검색 과제 S-NIAH-3(2K)는 KDA 대비 63.2에서 89.8로 오릅니다.
  3. 같은 비교에서 MK-NIAH-1(4K)은 28.0에서 37.8로 오릅니다.

긴 문맥에서 큰 폭으로 벌어진다는 점이, 메모리를 덜 흩뜨리는 분리 게이트의 설계 의도와 정확히 맞물립니다.

왜 중요한가: 한 아이디어로 푼 서브쿼드라틱 장문맥

Gated DeltaNet-2의 가치는 화려한 구조가 아니라 기억 메커니즘을 겨냥한 한 개의 명료한 수정에 있습니다. 2026년 현재 서브쿼드라틱(선형) 어텐션은 긴 문맥을 싸게 처리하는 유력 후보지만, 고정 메모리를 안전하게 편집하지 못한다는 약점이 있었습니다.

지우기와 쓰기의 결합을 끊은 것이 그 약점을 직접 겨냥합니다. 단, 위 수치는 1.3B/100B 규모의 결과이며 더 큰 모델·다른 데이터에서의 일반화는 추가 검증이 필요합니다.


참고: Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention (Hatamizadeh, Choi, Kautz, NVIDIA, 2026)

← 전체 글 보기