VibeThinker-3B: 30억 파라미터로 AIME 2026에서 94.3점을 낸 웨이보의 소형 추론 모델
VibeThinker-3B는 웨이보(Sina Weibo) 연구진이 공개한 30억(3B) 파라미터 추론 모델로, AIME 2026 수학 벤치마크에서 94.3점을 기록했습니다. 2026년 6월 arXiv 2606.16140으로 발표된 이 기술 보고서는, 'Spectrum-to-Signal' 사후학습 방식으로 작은 모델에서 큰 모델급 검증가능 추론을 끌어냈다고 주장합니다. 저자들은 같은 모델이 수백 배 큰 DeepSeek V3.2, GLM-5, Gemini 3 Pro와 수학·코딩 추론에서 대등하거나 앞선다고 보고했습니다.
VibeThinker-3B는 무엇을 어떻게 학습했나
VibeThinker-3B는 30억 파라미터라는 작은 크기에 'Spectrum-to-Signal'이라는 사후학습 파이프라인을 결합한 모델입니다. 이 파이프라인은 세 단계로 구성됩니다. 먼저 난이도를 점진적으로 올리는 커리큘럼 기반 지도학습(SFT)으로 폭넓은 풀이 다양성을 확보합니다.
다음은 수학과 코딩 등 여러 도메인에 걸친 멀티도메인 강화학습(RL)으로, 다양하게 펼쳐 둔 후보 풀이 중 검증가능한 정답 신호를 강화합니다. 마지막 오프라인 자기증류(self-distillation)는 강화된 능력을 다시 모델 안으로 압축합니다. 저자들은 이 설계의 배경 가설을 'Parametric Compression-Coverage Hypothesis'로 정리해, 작은 모델일수록 풀이의 다양성(coverage)을 먼저 넓힌 뒤 정답으로 좁히는 순서가 중요하다고 설명합니다.
벤치마크 성적: AIME 94.3, LiveCodeBench 80.2
VibeThinker-3B의 핵심 수치는 수학 경시대회와 코딩 과제에 집중돼 있습니다. 보고된 주요 점수는 다음과 같습니다.
- AIME 2026 수학 94.3점(클레임 단위 테스트타임 스케일링 적용 시 97.1점).
- AIME 2025 91.4점, HMMT 2025 89.3점.
- LiveCodeBench v6에서 80.2 Pass@1.
- 2026년 4월 말부터 5월 말까지의 미공개 LeetCode 주간·격주 콘테스트에서 96.1% 정답 채택률.
지시 따르기 능력을 측정하는 IFEval에서는 93.4점을 기록했습니다. 이 점수들은 30억 파라미터 모델이 수학·코딩이라는 검증가능한 영역에서 큰 모델급 성적에 근접했음을 보여주는 근거입니다.
"거대 모델과 동급"이라는 주장과 벤치마크 논쟁
VibeThinker-3B의 가장 도발적인 부분은 크기 대비 성능 주장입니다. 논문 초록은 이 모델이 "수백 배 큰 플래그십 모델, 예컨대 DeepSeek V3.2, GLM-5, Gemini 3 Pro와 대등하거나 이를 능가한다"고 밝히고 있습니다. 일부 2차 매체는 여기에 Claude Opus 4.5까지 비교 대상으로 끌어와 'Opus를 이긴 3B 모델'이라는 제목을 달았습니다.
이 비교를 두고 벤치마크 논쟁이 다시 불거졌습니다. VentureBeat는 작은 모델의 벤치마크 우위가 AIME·LiveCodeBench 같은 좁은 수학·코딩 과제에 한정된다는 점, 그리고 같은 과제를 사후학습으로 집중 최적화하면 일반 능력과의 간극이 벌어질 수 있다는 비판을 전했습니다. 따라서 "거대 모델을 이겼다"는 표현은 전 영역 동급이 아니라 특정 추론 벤치마크 한정으로 읽는 것이 정확합니다.
왜 중요한가: 작고 검증가능한 오픈웨이트 추론
VibeThinker-3B의 의의는 단일 최고 점수가 아니라 '작은 모델로도 검증가능 추론을 끌어올릴 수 있다'는 방향성에 있습니다. 2026년 현재 추론 성능은 대체로 파라미터 규모와 학습 비용에 비례한다고 여겨졌는데, 30억 파라미터가 AIME 94.3점을 내면 그 가정에 균열이 생깁니다.
검증가능 보상에 기댄 사후학습이 작은 모델의 추론을 크게 끌어올린다는 점이 실용적 함의입니다. 다만 보고된 강점은 수학·코딩처럼 정답을 채점할 수 있는 영역에 집중돼 있고, 일반 대화·지식·안전성 전반으로의 일반화는 추가 검증이 필요합니다.
정리
VibeThinker-3B는 30억 파라미터로 AIME 2026 94.3점, LiveCodeBench v6 80.2 Pass@1을 기록하며 'Spectrum-to-Signal' 사후학습으로 소형 모델의 검증가능 추론 한계를 끌어올린 사례입니다. 논문은 DeepSeek V3.2·GLM-5·Gemini 3 Pro와의 수학·코딩 대등성을 주장하지만, 이는 좁은 추론 벤치마크 한정이며 전 영역 동급으로 일반화하기는 이릅니다.
AI·테크 이슈,
가장 빠르게
단순 소식을 넘어, 맥락과 구조까지 파고듭니다
Ai Soon As Possible · asapai.co.kr
