AI 수학 동료: 구글 딥마인드의 'AI Co-Mathematician'은 증명기가 아니라 연구 워크벤치다

AI Co-Mathematician은 한 번에 정답을 뱉는 증명기가 아니라, 실제 수학 연구 과정을 흉내 내는 상태 유지형 에이전트 워크벤치다. 구글 딥마인드가 2026년 5월 7일 공개한 이 시스템은 FrontierMath 최고 난도인 Tier 4에서 48%(비공개 48문제 중 23문제 정답)를 기록했고, 옥스퍼드 수학자가 60년 묵은 난제를 푸는 것을 도왔다. 핵심 재정의는 분명하다. AI 수학의 병목은 순수 증명 능력이 아니라 워크플로 통합과 긴 세션의 불확실성 관리라는 것이다.

AI Co-Mathematician은 무엇인가

AI Co-Mathematician은 인간 연구자와 협업해 미해결 수학 문제를 다루는 다중 에이전트 워크벤치다. 구글 딥마인드가 설계한 이 시스템은 최상위 '프로젝트 코디네이터'가 여러 연구 워크스트림을 병렬로 조율하는 위계 구조를 가진다.

기존 접근과의 차이는 '일회성'을 버린 데 있다. 단발 증명기가 문제를 받아 한 번에 답을 내려 한다면, 이 시스템은 한 세션 안에서 가설을 세우고 실패를 기록하며 의도를 다듬는 연구 과정 자체를 모사한다.

왜 '증명기'가 아니라 '워크벤치'인가

AI Co-Mathematician을 워크벤치로 재정의하는 본질은 이 시스템이 한 세션 내내 상태(state)를 유지한다는 점이다. 이 시스템은 비동기 작업 공간으로, 진행 중인 시도와 막다른 길로 판명된 죽은 가설을 모두 기억한다.

이 차이를 정리하면 다음과 같다.

구분	기존 단발 증명기	AI Co-Mathematician
작동 단위	한 번의 질의-응답	긴 연구 세션
상태	무상태(매번 초기화)	상태 유지(시도·실패 추적)
실패 가설	버려짐	기록·재활용
산출물	텍스트 답	LaTeX 등 네이티브 수학 산출물
협업 방식	사용자가 전부 지시	의도를 함께 다듬음

죽은 가설까지 기억한다는 것의 의미

실패 가설의 추적은 이 시스템이 사람의 연구를 닮은 가장 핵심적인 특징이다. AI Co-Mathematician은 막다른 길로 판명된 경로를 폐기하지 않고 상태로 남겨, 같은 실수를 반복하지 않고 다음 시도의 단서로 쓴다.

연구 워크벤치가 한 세션에서 수행하는 작업은 다음 단계로 나뉜다.

의도 정제: 모호한 문제 진술을 연구 가능한 하위 목표로 다듬는다.
문헌 수면 위로: 관련 정리·논문을 검색해 맥락을 제공한다.
가설 시도와 실패 추적: 여러 워크스트림을 병렬로 돌리며 죽은 가설을 기록한다.
네이티브 산출: 결과를 LaTeX 작성본 등 수학자가 바로 쓰는 형식으로 낸다.

왜 실패의 기억이 성능을 끌어올리는가

죽은 가설을 남긴다는 설계를 단순한 편의 기능으로 읽으면 핵심을 놓친다. 수학 연구의 실제 시간은 대부분 틀린 경로를 밟고 되돌아오는 데 쓰인다. 무상태 증명기는 매 시도가 백지에서 출발하므로, 같은 막다른 길을 다시 걸을 확률이 구조적으로 존재한다. 반대로 상태를 유지하는 시스템은 실패한 경로를 탐색 공간에서 지워 나가며, 남은 유효 공간을 좁혀 간다.

이 관점에서 보면 성능 향상의 원천은 '더 똑똑한 한 번의 추론'이 아니라 '누적된 실패의 배제'다. 인간 수학자가 노트에 지워진 시도를 다시 열어 보며 방향을 잡듯, 이 시스템의 상태는 일종의 공유 연구 노트로 작동한다. 협업이라는 단어가 은유가 아니라 작동 구조인 이유가 여기에 있다.

FrontierMath Tier 4 48%는 무슨 뜻인가

48%는 전문가가 몇 시간에서 며칠을 들이는 최고 난도 문제에서 거둔 점수다. FrontierMath Tier 4는 자동 채점이 가능한 답 형식을 가지면서도 연구자급 난도를 요구하도록 설계됐고, AI Co-Mathematician은 비공개 48문제 중 23문제를 맞혀 48%에 도달했다.

비교하면 격차가 드러난다. 같은 벤치마크에서 베이스 모델인 Gemini 3.1 Pro는 19%, 최근접 경쟁자인 GPT-5.5 Pro는 39.6%였다. 즉 워크벤치 구조가 동일 계열 모델의 점수를 약 2.5배로 끌어올린 셈이다.

숫자를 어떻게 읽어야 하나

같은 벤치마크에서 베이스 모델 19%가 워크벤치를 얹자 48%로 뛴 것은, 향상분의 상당 부분이 모델 자체가 아니라 시스템 설계에서 나왔음을 시사한다. 이는 앞으로 AI 수학의 진전이 파운데이션 모델을 키우는 축과, 그 모델을 감싸는 에이전트 구조를 다듬는 축으로 나뉠 수 있음을 뜻한다. 후자는 상대적으로 저비용이며, 모델을 학습시킬 자원이 없는 팀도 참여할 여지를 남긴다.

다만 GPT-5.5 Pro의 39.6%가 이미 워크벤치 없는 단일 모델의 값인지, 별도 스캐폴딩을 포함한 값인지에 따라 '2.5배'의 해석은 달라진다. 서로 다른 시스템의 점수를 나란히 놓을 때는 각 값이 어떤 구성에서 나왔는지를 함께 봐야 한다. 벤치마크 우위가 곧 실제 연구 기여로 이어진다는 보장도 없다. 자동 채점형 문제와 열린 미해결 문제는 성질이 다르기 때문이다.

실제 연구에서 무엇을 풀었나

옥스퍼드 수학자 마크 래컨비(Marc Lackenby)는 이 시스템의 도움으로 60년간 풀리지 않던 난제를 해결했다. 그는 군론의 미해결 문제집인 Kourovka Notebook의 문제 21.10을 AI Co-Mathematician과 함께 해결했다고 보고됐다.

이 사례의 함의는 점수표를 넘어선다. 벤치마크 48%가 능력의 증거라면, 실제 미해결 문제 기여는 워크플로 통합이 작동한다는 증거다.

그래서 AI-수학의 병목은 어디인가

AI-수학의 병목은 원시 증명력이 아니라 워크플로 통합과 긴 세션의 불확실성 관리다. 2026년 시점에서 AI Co-Mathematician이 던지는 메시지는, 더 똑똑한 단발 증명기보다 연구 과정을 견디는 상태 유지형 협업 구조가 다음 도약을 만든다는 것이다.

한국 연구·산업에 주는 시사점

이 결과는 국내 AI 연구 지형에도 실질적인 시사점을 준다. 향상의 상당 부분이 거대 모델의 규모가 아니라 그 위에 얹는 에이전트 워크벤치 설계에서 나왔다면, 프런티어 모델을 직접 학습시킬 여력이 없는 대학·연구실·스타트업에도 기여의 통로가 열린다. 상태 관리, 워크스트림 조율, 실패 추적 같은 시스템 계층은 상대적으로 적은 자원으로도 실험할 수 있는 영역이기 때문이다.

동시에 이 사례는 '벤치마크 점수'를 최종 목표로 삼는 접근의 한계를 드러낸다. 진짜 가치는 60년 난제 기여처럼 실제 연구 워크플로에 녹아든 데서 나왔다. 국내에서도 순수 성능 경쟁을 넘어, 도메인 전문가와 시스템이 한 세션을 함께 견디는 협업 구조를 어떻게 만들지가 다음 질문이 된다.

유의할 점과 열린 질문

이 결과는 초기 사용 단계의 보고이며, 48%라는 수치도 특정 벤치마크의 비공개 문제 집합에 대한 것임을 유의해야 한다. 일반화에는 추가 검증이 필요하다.

특히 래컨비 사례에서 시스템의 기여가 어느 정도였는지, 즉 인간 수학자의 통찰이 주도했고 시스템이 보조했는지 아니면 그 반대인지는 단일 사례만으로 판단하기 어렵다. 재현 가능한 다수 사례와 독립적 검증이 쌓이기 전까지 '워크벤치가 병목을 풀었다'는 명제는 강한 가설로 두는 편이 안전하다.

참고: AI Co-Mathematician: Accelerating Mathematicians with Agentic AI (Google DeepMind, 2026)