VibeThinker-3B는 무엇인가요?

웨이보(Sina Weibo) 연구진이 2026년 6월 arXiv 2606.16140으로 공개한 30억(3B) 파라미터 추론 모델입니다. 'Spectrum-to-Signal' 사후학습(커리큘럼 SFT, 멀티도메인 강화학습, 오프라인 자기증류)으로 작은 모델에서 검증가능 추론을 끌어올렸으며, AIME 2026 94.3점, LiveCodeBench v6 80.2 Pass@1을 기록했습니다.

정말 거대 모델보다 성능이 좋나요?

논문 초록은 DeepSeek V3.2, GLM-5, Gemini 3 Pro와 수학·코딩 추론에서 대등하거나 능가한다고 주장합니다. 다만 이는 AIME·LiveCodeBench 같은 좁은 추론 벤치마크 한정이며, 일반 대화·지식·안전성 전반의 동급을 뜻하지는 않습니다. 일부 2차 매체가 Claude Opus 4.5까지 비교에 끌어오며 벤치마크 논쟁이 일었습니다.

주요 벤치마크 점수는 어떻게 되나요?

AIME 2026 94.3점(테스트타임 스케일링 시 97.1점), AIME 2025 91.4점, HMMT 2025 89.3점, LiveCodeBench v6 80.2 Pass@1, IFEval 93.4점, 미공개 LeetCode 콘테스트 96.1% 채택률을 기록했습니다.

VibeThinker-3B: 30억 파라미터로 AIME 2026에서 94.3점을 낸 웨이보의 소형 추론 모델

VibeThinker-3B는 웨이보(Sina Weibo) 연구진이 공개한 30억(3B) 파라미터 추론 모델로, AIME 2026 수학 벤치마크에서 94.3점을 기록했습니다. 2026년 6월 arXiv 2606.16140으로 발표된 이 기술 보고서는, 'Spectrum-to-Signal' 사후학습 방식으로 작은 모델에서 큰 모델급 검증가능 추론을 끌어냈다고 주장합니다. 저자들은 같은 모델이 수백 배 큰 DeepSeek V3.2, GLM-5, Gemini 3 Pro와 수학·코딩 추론에서 대등하거나 앞선다고 보고했습니다.

VibeThinker-3B는 무엇을 어떻게 학습했나

VibeThinker-3B는 30억 파라미터라는 작은 크기에 'Spectrum-to-Signal'이라는 사후학습 파이프라인을 결합한 모델입니다. 이 파이프라인은 세 단계로 구성됩니다. 먼저 난이도를 점진적으로 올리는 커리큘럼 기반 지도학습(SFT)으로 폭넓은 풀이 다양성을 확보합니다.

다음은 수학과 코딩 등 여러 도메인에 걸친 멀티도메인 강화학습(RL)으로, 다양하게 펼쳐 둔 후보 풀이 중 검증가능한 정답 신호를 강화합니다. 마지막 오프라인 자기증류(self-distillation)는 강화된 능력을 다시 모델 안으로 압축합니다. 저자들은 이 설계의 배경 가설을 'Parametric Compression-Coverage Hypothesis'로 정리해, 작은 모델일수록 풀이의 다양성(coverage)을 먼저 넓힌 뒤 정답으로 좁히는 순서가 중요하다고 설명합니다.

벤치마크 성적: AIME 94.3, LiveCodeBench 80.2

VibeThinker-3B의 핵심 수치는 수학 경시대회와 코딩 과제에 집중돼 있습니다. 보고된 주요 점수는 다음과 같습니다.

AIME 2026 수학 94.3점(클레임 단위 테스트타임 스케일링 적용 시 97.1점).
AIME 2025 91.4점, HMMT 2025 89.3점.
LiveCodeBench v6에서 80.2 Pass@1.
2026년 4월 말부터 5월 말까지의 미공개 LeetCode 주간·격주 콘테스트에서 96.1% 정답 채택률.

지시 따르기 능력을 측정하는 IFEval에서는 93.4점을 기록했습니다. 이 점수들은 30억 파라미터 모델이 수학·코딩이라는 검증가능한 영역에서 큰 모델급 성적에 근접했음을 보여주는 근거입니다.

"거대 모델과 동급"이라는 주장과 벤치마크 논쟁

VibeThinker-3B의 가장 도발적인 부분은 크기 대비 성능 주장입니다. 논문 초록은 이 모델이 "수백 배 큰 플래그십 모델, 예컨대 DeepSeek V3.2, GLM-5, Gemini 3 Pro와 대등하거나 이를 능가한다"고 밝히고 있습니다. 일부 2차 매체는 여기에 Claude Opus 4.5까지 비교 대상으로 끌어와 'Opus를 이긴 3B 모델'이라는 제목을 달았습니다.

이 비교를 두고 벤치마크 논쟁이 다시 불거졌습니다. VentureBeat는 작은 모델의 벤치마크 우위가 AIME·LiveCodeBench 같은 좁은 수학·코딩 과제에 한정된다는 점, 그리고 같은 과제를 사후학습으로 집중 최적화하면 일반 능력과의 간극이 벌어질 수 있다는 비판을 전했습니다. 따라서 "거대 모델을 이겼다"는 표현은 전 영역 동급이 아니라 특정 추론 벤치마크 한정으로 읽는 것이 정확합니다.

왜 중요한가: 작고 검증가능한 오픈웨이트 추론

VibeThinker-3B의 의의는 단일 최고 점수가 아니라 '작은 모델로도 검증가능 추론을 끌어올릴 수 있다'는 방향성에 있습니다. 2026년 현재 추론 성능은 대체로 파라미터 규모와 학습 비용에 비례한다고 여겨졌는데, 30억 파라미터가 AIME 94.3점을 내면 그 가정에 균열이 생깁니다.

검증가능 보상에 기댄 사후학습이 작은 모델의 추론을 크게 끌어올린다는 점이 실용적 함의입니다. 다만 보고된 강점은 수학·코딩처럼 정답을 채점할 수 있는 영역에 집중돼 있고, 일반 대화·지식·안전성 전반으로의 일반화는 추가 검증이 필요합니다.

정리

VibeThinker-3B는 30억 파라미터로 AIME 2026 94.3점, LiveCodeBench v6 80.2 Pass@1을 기록하며 'Spectrum-to-Signal' 사후학습으로 소형 모델의 검증가능 추론 한계를 끌어올린 사례입니다. 논문은 DeepSeek V3.2·GLM-5·Gemini 3 Pro와의 수학·코딩 대등성을 주장하지만, 이는 좁은 추론 벤치마크 한정이며 전 영역 동급으로 일반화하기는 이릅니다.

참고: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models (Sen Xu et al., Weibo, 2026)

VibeThinker-3B: 30억 파라미터로 AIME 2026에서 94.3점을 낸 웨이보의 소형 추론 모델

VibeThinker-3B는 무엇을 어떻게 학습했나

벤치마크 성적: AIME 94.3, LiveCodeBench 80.2

"거대 모델과 동급"이라는 주장과 벤치마크 논쟁

왜 중요한가: 작고 검증가능한 오픈웨이트 추론

정리

관련 글

AI·테크 이슈,가장 빠르게

AI·테크 이슈,
가장 빠르게