하이브리드 모델은 어떤 토큰을 더 잘 맞히나: 평균 손실로는 안 보이는 트랜스포머와의 차이
Ai2(Allen Institute for AI)가 2026년 6월 공개한 분석은 하이브리드 언어모델이 의미를 담은 내용어를 트랜스포머보다 잘 예측하지만, 앞 구절을 그대로 반복하는 토큰과 닫는 괄호에서는 그 우위가 거의 사라진다는 것을 토큰별 손실 격차로 보여줍니다. 7B 규모의 Olmo 3(트랜스포머)와 Olmo Hybrid를 나란히 놓고 비교한 이 연구는, 모든 토큰을 평균 낸 단일 손실 하나로는 두 아키텍처의 차이를 제대로 가를 수 없다고 결론짓습니다.
평균 손실 하나로는 두 아키텍처를 비교할 수 없다
Ai2의 핵심 주장은 모델의 전체 평균 손실, 즉 모든 토큰에 걸친 평균 오차가 트랜스포머와 하이브리드를 비교하기에는 너무 뭉툭하다는 것입니다. 두 모델의 종합 점수가 비슷해 보여도, 어떤 토큰에서 이기고 어떤 토큰에서 지는지를 합쳐 버리면 실제로 어떤 능력이 다른지가 가려집니다.
분석 방법은 토큰을 종류별로 쪼개 손실 격차를 재는 것입니다. 연구진은 품사, 괄호 종류, n그램 반복 같은 범주로 토큰을 나눈 뒤, 두 모델의 예측 손실 차이를 범주별로 측정했습니다.
하이브리드가 더 잘 맞히는 곳: 내용어
Olmo Hybrid는 의미를 담은 내용어에서 트랜스포머보다 앞서며, 보고된 손실 격차는 약 0.04입니다. 같은 비교에서 관사·전치사 같은 기능어의 격차는 약 0.02로, 내용어에서의 우위가 기능어보다 두드러집니다.
이 패턴이 가리키는 방향은 분명합니다. 하이브리드는 다음에 올 의미 단어를 맞히는 데 강점을 보이며, 이는 순환 레이어가 문맥의 상태를 추적하는 능력과 맞닿아 있습니다.
우위가 사라지는 곳: 반복과 닫는 괄호
하이브리드의 이점은 앞 구절을 글자 그대로 반복하는 토큰에서 거의 0으로 줄어듭니다. 토큰이 이전 본문을 그대로 베껴야 할수록 하이브리드의 우위는 작아지고, 닫는 중괄호나 괄호에서는 그 이점이 아예 사라집니다.
원인은 정확한 복사가 다른 종류의 능력이라는 데 있습니다. 멀리 떨어진 특정 토큰을 그대로 끌어와 베끼는 작업은 트랜스포머의 어텐션이 보존하는 강점이며, 고정 크기 상태로 압축하는 순환 구조에는 불리합니다.
왜 이런 차이가 나나: 순환 상태 추적 vs 정확한 복사
Olmo Hybrid의 강점과 약점은 하이브리드가 순환 레이어의 상태 추적 능력과 어텐션을 함께 쓰는 구조에서 나옵니다. 내용 예측에서는 순환 레이어의 상태 추적이 이득을 주고, 정확한 토큰 검색과 복사에서는 트랜스포머의 어텐션이 우위를 유지합니다.
같은 결론은 1B 규모 비교에서도 점검됐습니다. 연구진은 7B Olmo 3·Olmo Hybrid 외에 트랜스포머·하이브리드·순수 순환의 1B 모델 세 종을 함께 분석해, 아키텍처별 강약점이 규모를 가로질러 나타나는지 확인했습니다.
정리
Ai2의 이번 분석이 주는 교훈은 아키텍처 비교를 단일 점수로 끝내면 안 된다는 것입니다. Olmo Hybrid는 내용어 예측에서 트랜스포머를 앞서지만 정확한 복사와 닫는 괄호에서는 뒤지며, 평균 손실 하나로는 이 상반된 강약점이 상쇄돼 보이지 않습니다. 하이브리드를 쓸지 트랜스포머를 쓸지 고를 때는, 작업이 의미 예측에 가까운지 정확한 복사에 가까운지를 먼저 봐야 한다는 실용적 함의가 따라옵니다.
참고: Which tokens does a hybrid model predict better? (Ai2, 2026)
AI·테크 이슈,
가장 빠르게
단순 소식을 넘어, 맥락과 구조까지 파고듭니다
Ai Soon As Possible · asapai.co.kr
