강화학습이 추론을 가르친다는 착각: RL의 진짜 역할은 새 능력이 아니라 답 고르기다
강화학습(RLVR)이 LLM에 새 추론 능력을 가르친다는 통념은 토큰 단위 분석으로 반박됩니다. USC·DEVCOM ARL의 Ömer Faruk Akgül·Willie Neiswanger·Viktor Prasanna 연구진은 2026년 5월 논문에서, RLVR이 새 전략을 가르치는 게 아니라 베이스 모델이 이미 가진 해답 쪽으로 확률 질량을 재분배할 뿐이며, 그 효과 전체가 전체 토큰의 1~3%에 불과한 고엔트로피 '분기(fork)' 토큰에 집중된다는 사실을 밝혔습니다. 이 글은 그 증거와 함의를 직답형으로 정리합니다.
RLVR은 무엇을 바꾸는가: 능력이 아니라 확률 분포
RLVR은 새 능력을 주입하는 학습이 아니라 기존 분포를 재배치하는 절차입니다. 검증 가능한 보상 기반 강화학습(RLVR)은 2026년 현재 LLM 추론 향상의 지배적 패러다임이지만, USC 연구진의 토큰 단위 분석은 RL이 베이스 모델에 없던 전략을 새로 만들지 않는다는 점을 보여줍니다.
핵심은 '재분배'입니다. RL은 베이스 모델이 이미 담고 있는 해답 위로 확률 질량을 옮길 뿐이며, 학습 후 승격된 토큰은 거의 항상 베이스 모델의 top-5 후보 안에 들어 있었습니다. 즉 정답은 처음부터 모델 안에 있었고, RL은 그것을 골라 올린 셈입니다.
효과는 어디에 집중되나: 1~3%의 분기 토큰
RL의 이득은 전체 토큰의 1~3%에 불과한 소수 위치에 집중됩니다. 연구진은 여러 모델 패밀리와 RL 알고리즘에 걸쳐, RL의 유익한 변화가 모델이 어느 분기를 택할지 불확실해하는 고엔트로피 결정 지점에 희소하게 몰려 있음을 확인했습니다.
이 분기 토큰의 특징은 세 가지입니다.
- 희소성: 변화가 일어나는 위치는 전체의 1~3%뿐입니다.
- 예측 가능성: 승격되는 토큰은 항상 베이스 모델의 top-5 안에 있습니다.
- 인과성: 그 소수 위치만 교정해도 RL 정확도 향상의 큰 몫을 회수할 수 있습니다.
ReasonMaxxer: RL 없이 같은 효과를 내는 방법
ReasonMaxxer는 강화학습 없이 분기 토큰만 건드려 풀 RL에 맞먹는 성능을 내는 대조(contrastive) 기법입니다. 베이스 모델의 엔트로피가 RL로 학습된 모델 없이도 교정이 필요한 위치를 짚어내므로, 온라인 생성 없이 수백 개의 베이스 롤아웃과 엔트로피 게이팅만으로 동작합니다.
비용 차이가 결정적입니다. ReasonMaxxer는 수십 개 수준의 문제와 단일 GPU 수 분의 학습으로 풀 RL에 필적하며, 학습 비용을 약 3개 자릿수(약 1,000배) 줄입니다. 교정이 저차원이라 모델 파라미터의 극히 일부로 표현된다는 점도 '능력 학습이 아닌 정책 선택'이라는 결론을 뒷받침합니다.
RL 학습과 ReasonMaxxer는 무엇이 다른가
풀 RLVR과 ReasonMaxxer의 차이는 비용과 메커니즘에서 분명히 갈립니다. 같은 추론 향상을 목표로 하지만, ReasonMaxxer는 학습 비용을 약 1,000배 줄인다는 점에서 근본적으로 다릅니다.
| 구분 | 풀 RLVR | ReasonMaxxer |
|---|---|---|
| 메커니즘 | 보상 기반 정책 최적화 | 분기 토큰 대조 교정 |
| 대상 토큰 | 전체 시퀀스 | 고엔트로피 1~3% |
| 온라인 생성 | 필요 | 불필요 |
| 학습 비용 | 기준 | 약 1,000배 절감 |
| 새 능력 학습 | 통념상 가정 | 불필요(이미 top-5 내 존재) |
함의: '능력 신화'를 버리면 보이는 것
USC 연구의 함의는 RL을 능력 주입이 아니라 희소한 정책 선택으로 재정의하는 데 있습니다. 추론 향상의 본질이 베이스 모델이 이미 가진 해답을 고르는 일이라면, 값비싼 온라인 RL 대신 분기 지점을 직접 교정하는 저비용 경로가 열립니다.
다만 주의할 점도 있습니다. 이 결론은 검증 가능한 보상이 있는 추론 과제와 특정 모델 패밀리에서 관찰된 것이며, 모든 도메인에 일반화된다고 단정할 수는 없습니다. 그럼에도 'RL이 새 능력을 가르친다'는 2026년의 지배적 가정을 토큰 단위 증거로 흔들었다는 점에서 의미가 큽니다.