강화학습이 추론을 가르친다는 착각: RL의 진짜 역할은 새 능력이 아니라 답 고르기다

강화학습(RLVR)이 LLM에 새 추론 능력을 가르친다는 통념은 토큰 단위 분석으로 반박된다. USC·DEVCOM ARL의 Ömer Faruk Akgül·Willie Neiswanger·Viktor Prasanna 연구진은 2026년 5월 논문에서, RLVR이 새 전략을 가르치는 게 아니라 베이스 모델이 이미 가진 해답 쪽으로 확률 질량을 재분배할 뿐이며, 그 효과 전체가 전체 토큰의 1~3%에 불과한 고엔트로피 '분기(fork)' 토큰에 집중된다는 사실을 밝혔다. 이 글은 그 증거와 함의를 직답형으로 정리한다.

RLVR은 무엇을 바꾸는가: 능력이 아니라 확률 분포

RLVR은 새 능력을 주입하는 학습이 아니라 기존 분포를 재배치하는 절차다. 검증 가능한 보상 기반 강화학습(RLVR)은 2026년 현재 LLM 추론 향상의 지배적 패러다임이지만, USC 연구진의 토큰 단위 분석은 RL이 베이스 모델에 없던 전략을 새로 만들지 않는다는 점을 보여준다.

핵심은 '재분배'다. RL은 베이스 모델이 이미 담고 있는 해답 위로 확률 질량을 옮길 뿐이며, 학습 후 승격된 토큰은 거의 항상 베이스 모델의 top-5 후보 안에 들어 있었다. 즉 정답은 처음부터 모델 안에 있었고, RL은 그것을 골라 올린 셈이다.

왜 이 발견이 중요한가: 학습 서사가 뒤집힌다

이 결과가 주는 충격은 단순한 최적화 팁이 아니라 서사의 전복에 있다. 그동안 업계는 RL이 모델을 '더 똑똑하게' 만든다고 믿었고, 그 전제 위에서 막대한 온라인 롤아웃 비용을 정당화해 왔다. 그러나 승격 토큰이 항상 베이스 모델 top-5 안이라면, RL이 하는 일은 지능의 확장이 아니라 이미 존재하는 선택지 중 하나에 표를 몰아주는 정렬 작업에 가깝다.

이 관점은 벤치마크 점수 상승을 읽는 방식도 바꾼다. 점수가 올랐다고 해서 새 능력이 생긴 게 아니라, 원래 낼 수 있던 답을 더 자주 꺼내게 됐다는 뜻으로 해석해야 한다. '능력'과 '접근성'을 분리해서 보는 순간, RL을 능력 배양이 아니라 디코딩 정책 문제로 재정의할 수 있다.

효과는 어디에 집중되나: 1~3%의 분기 토큰

RL의 이득은 전체 토큰의 1~3%에 불과한 소수 위치에 집중된다. 연구진은 여러 모델 패밀리와 RL 알고리즘에 걸쳐, RL의 유익한 변화가 모델이 어느 분기를 택할지 불확실해하는 고엔트로피 결정 지점에 희소하게 몰려 있음을 확인했다.

이 분기 토큰의 특징은 세 가지다.

희소성: 변화가 일어나는 위치는 전체의 1~3%뿐이다.
예측 가능성: 승격되는 토큰은 항상 베이스 모델의 top-5 안에 있다.
인과성: 그 소수 위치만 교정해도 RL 정확도 향상의 큰 몫을 회수할 수 있다.

ReasonMaxxer: RL 없이 같은 효과를 내는 방법

ReasonMaxxer는 강화학습 없이 분기 토큰만 건드려 풀 RL에 맞먹는 성능을 내는 대조(contrastive) 기법이다. 베이스 모델의 엔트로피가 RL로 학습된 모델 없이도 교정이 필요한 위치를 짚어내므로, 온라인 생성 없이 수백 개의 베이스 롤아웃과 엔트로피 게이팅만으로 동작한다.

비용 차이가 결정적이다. ReasonMaxxer는 수십 개 수준의 문제와 단일 GPU 수 분의 학습으로 풀 RL에 필적하며, 학습 비용을 약 3개 자릿수(약 1,000배) 줄인다. 교정이 저차원이라 모델 파라미터의 극히 일부로 표현된다는 점도 '능력 학습이 아닌 정책 선택'이라는 결론을 뒷받침한다.

RL 학습과 ReasonMaxxer는 무엇이 다른가

풀 RLVR과 ReasonMaxxer의 차이는 비용과 메커니즘에서 분명히 갈린다. 같은 추론 향상을 목표로 하지만, ReasonMaxxer는 학습 비용을 약 1,000배 줄인다는 점에서 근본적으로 다르다.

구분	풀 RLVR	ReasonMaxxer
메커니즘	보상 기반 정책 최적화	분기 토큰 대조 교정
대상 토큰	전체 시퀀스	고엔트로피 1~3%
온라인 생성	필요	불필요
학습 비용	기준	약 1,000배 절감
새 능력 학습	통념상 가정	불필요(이미 top-5 내 존재)

1,000배라는 숫자를 어떻게 읽을 것인가

약 1,000배 절감이라는 수치는 조건부로 읽어야 오해가 없다. 이 값은 수십 개 문제와 단일 GPU 수 분이라는 특정 설정에서 나온 것이며, 온라인 롤아웃을 통째로 걷어냈기에 가능한 규모다. 즉 알고리즘 효율이 3자릿수 개선됐다기보다, RL이 원래 대부분의 연산을 이미 알던 답을 재확인하는 데 쓰고 있었다는 방증에 가깝다.

한국의 연구실이나 스타트업 관점에서 이 숫자는 특히 크게 다가온다. 대규모 GPU 클러스터 없이도 베이스 모델과 수백 개 롤아웃, 엔트로피 게이팅만으로 추론 성능을 끌어올릴 여지가 생기기 때문이다. 온라인 RL 인프라가 진입 장벽이던 소규모 팀에게는 저비용 경로가 실질적 선택지가 된다.

함의: '능력 신화'를 버리면 보이는 것

USC 연구의 함의는 RL을 능력 주입이 아니라 희소한 정책 선택으로 재정의하는 데 있다. 추론 향상의 본질이 베이스 모델이 이미 가진 해답을 고르는 일이라면, 값비싼 온라인 RL 대신 분기 지점을 직접 교정하는 저비용 경로가 열린다.

다만 주의할 점도 있다. 이 결론은 검증 가능한 보상이 있는 추론 과제와 특정 모델 패밀리에서 관찰된 것이며, 모든 도메인에 일반화된다고 단정할 수는 없다. 그럼에도 'RL이 새 능력을 가르친다'는 2026년의 지배적 가정을 토큰 단위 증거로 흔들었다는 점에서 의미가 크다.

참고: Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning (Akgül et al., 2026)