ASAPAi Soon As Possible · AI·테크 이슈를 가장 빠르게
Article

AI 수학 동료: 구글 딥마인드의 'AI Co-Mathematician'은 증명기가 아니라 연구 워크벤치다

2026-06-19 · 3분 읽기

AI Co-Mathematician은 한 번에 정답을 뱉는 증명기가 아니라, 실제 수학 연구 과정을 흉내 내는 상태 유지형 에이전트 워크벤치입니다. 구글 딥마인드가 2026년 5월 7일 공개한 이 시스템은 FrontierMath 최고 난도인 Tier 4에서 48%(비공개 48문제 중 23문제 정답)를 기록했고, 옥스퍼드 수학자가 60년 묵은 난제를 푸는 것을 도왔습니다. 핵심 재정의는 분명합니다. AI 수학의 병목은 순수 증명 능력이 아니라 워크플로 통합과 긴 세션의 불확실성 관리라는 것입니다.

AI Co-Mathematician은 무엇인가

AI Co-Mathematician은 인간 연구자와 협업해 미해결 수학 문제를 다루는 다중 에이전트 워크벤치입니다. 구글 딥마인드가 설계한 이 시스템은 최상위 '프로젝트 코디네이터'가 여러 연구 워크스트림을 병렬로 조율하는 위계 구조를 가집니다.

기존 접근과의 차이는 '일회성'을 버린 데 있습니다. 단발 증명기가 문제를 받아 한 번에 답을 내려 한다면, 이 시스템은 한 세션 안에서 가설을 세우고 실패를 기록하며 의도를 다듬는 연구 과정 자체를 모사합니다.

왜 '증명기'가 아니라 '워크벤치'인가

AI Co-Mathematician을 워크벤치로 재정의하는 본질은 이 시스템이 한 세션 내내 상태(state)를 유지한다는 점입니다. 이 시스템은 비동기 작업 공간으로, 진행 중인 시도와 막다른 길로 판명된 죽은 가설을 모두 기억합니다.

이 차이를 정리하면 다음과 같습니다.

구분기존 단발 증명기AI Co-Mathematician
작동 단위한 번의 질의-응답긴 연구 세션
상태무상태(매번 초기화)상태 유지(시도·실패 추적)
실패 가설버려짐기록·재활용
산출물텍스트 답LaTeX 등 네이티브 수학 산출물
협업 방식사용자가 전부 지시의도를 함께 다듬음

죽은 가설까지 기억한다는 것의 의미

실패 가설의 추적은 이 시스템이 사람의 연구를 닮은 가장 핵심적인 특징입니다. AI Co-Mathematician은 막다른 길로 판명된 경로를 폐기하지 않고 상태로 남겨, 같은 실수를 반복하지 않고 다음 시도의 단서로 씁니다.

연구 워크벤치가 한 세션에서 수행하는 작업은 다음 단계로 나뉩니다.

  1. 의도 정제: 모호한 문제 진술을 연구 가능한 하위 목표로 다듬습니다.
  2. 문헌 수면 위로: 관련 정리·논문을 검색해 맥락을 제공합니다.
  3. 가설 시도와 실패 추적: 여러 워크스트림을 병렬로 돌리며 죽은 가설을 기록합니다.
  4. 네이티브 산출: 결과를 LaTeX 작성본 등 수학자가 바로 쓰는 형식으로 냅니다.

FrontierMath Tier 4 48%는 무슨 뜻인가

48%는 전문가가 몇 시간에서 며칠을 들이는 최고 난도 문제에서 거둔 점수입니다. FrontierMath Tier 4는 자동 채점이 가능한 답 형식을 가지면서도 연구자급 난도를 요구하도록 설계됐고, AI Co-Mathematician은 비공개 48문제 중 23문제를 맞혀 48%에 도달했습니다.

비교하면 격차가 드러납니다. 같은 벤치마크에서 베이스 모델인 Gemini 3.1 Pro는 19%, 최근접 경쟁자인 GPT-5.5 Pro는 39.6%였습니다. 즉 워크벤치 구조가 동일 계열 모델의 점수를 약 2.5배로 끌어올린 셈입니다.

실제 연구에서 무엇을 풀었나

옥스퍼드 수학자 마크 래컨비(Marc Lackenby)는 이 시스템의 도움으로 60년간 풀리지 않던 난제를 해결했습니다. 그는 군론의 미해결 문제집인 Kourovka Notebook의 문제 21.10을 AI Co-Mathematician과 함께 해결했다고 보고됐습니다.

이 사례의 함의는 점수표를 넘어섭니다. 벤치마크 48%가 능력의 증거라면, 실제 미해결 문제 기여는 워크플로 통합이 작동한다는 증거입니다.

그래서 AI-수학의 병목은 어디인가

AI-수학의 병목은 원시 증명력이 아니라 워크플로 통합과 긴 세션의 불확실성 관리입니다. 2026년 시점에서 AI Co-Mathematician이 던지는 메시지는, 더 똑똑한 단발 증명기보다 연구 과정을 견디는 상태 유지형 협업 구조가 다음 도약을 만든다는 것입니다.

다만 이 결과는 초기 사용 단계의 보고이며, 48%라는 수치도 특정 벤치마크의 비공개 문제 집합에 대한 것임을 유의해야 합니다. 일반화에는 추가 검증이 필요합니다.


참고: AI Co-Mathematician: Accelerating Mathematicians with Agentic AI (Google DeepMind, 2026)

← 전체 글 보기