ASAPAi Soon As Possible · AI·테크 이슈를 가장 빠르게
Article

'AI 과학자'가 실패하는 진짜 이유: 더 큰 모델로는 안 되는 네 가지 설계 결함

AASAP
2026-06-19 · 3분 읽기

'AI 과학자(AI scientist)'는 자율적 과학 발견을 하도록 설계되지 않은 시스템입니다. 2026년 5월 Harshit Bisht 등이 arXiv에 발표한 입장 논문은 오늘날의 에이전트형 AI 과학자가 단지 규모가 작아서가 아니라 구조적으로 잘못 설계돼 자율성에 도달하지 못한다고 주장하며, 그 근본 원인을 네 가지로 정리합니다. 이 글은 그 네 가지 설계 결함과 'McNamara 오류' 프레이밍, 그리고 왜 스캐폴딩(scaffolding)으로는 해결되지 않는지를 직답형으로 정리합니다.

논문의 핵심 주장: 규모가 아니라 설계가 문제다

논문의 핵심 주장은 "AI 과학자의 한계는 스케일이 아니라 설계 선택의 문제"라는 것입니다. Bisht 등은 2026년 시점의 AI 과학자가 이미 '코사이언티스트(co-scientist)'로는 기능하지만, 완전 자율 발견에는 구조적으로 부적합하다고 봅니다.

따라서 처방도 달라집니다. 더 큰 모델이나 더 정교한 프롬프트 체인을 얹는 스캐폴딩으로는 안 되며, 학습 코퍼스·후처리·벤치마크 같은 근본 설계 선택을 다시 봐야 한다는 것입니다.

첫째, McNamara 오류: 측정 가능한 것만 최적화한다

첫 번째 설계 결함은 문제 선택이 'McNamara 오류'에 의해 왜곡된다는 것입니다. McNamara 오류는 측정하기 쉬운 지표만 보고 정작 중요한 것을 무시하는 함정으로, AI 과학자는 정량화·측정이 쉬운 문제로 탐구가 쏠립니다.

그 결과 과학적으로 중요하지만 측정이 어렵거나 모호한 문제는 후순위로 밀립니다. 자율 발견의 출발점인 '무엇을 풀 가치가 있는가'라는 질문 자체가 이미 한쪽으로 기울어 있는 셈입니다.

둘째·셋째: 누락된 암묵지와 합의로 수렴하는 선호 튜닝

두 번째와 세 번째 결함은 모델이 무엇으로 학습되고 어떻게 다듬어지는가에서 비롯됩니다. 둘 다 자율 발견에 필요한 '실패에서 배우기'와 '새로움'을 구조적으로 깎아냅니다.

  1. 둘째, 코퍼스의 암묵지 누락입니다. AI 과학자가 올라탄 대형 언어 모델의 학습 코퍼스는 실험실 현장의 절차적 노하우와 실패 지식(tacit procedural and failure knowledge)을 담지 못합니다. 논문은 성공만 기록되는 문헌의 한계를 지적합니다.
  2. 셋째, 다양성을 붕괴시키는 선호 튜닝입니다. 후처리 단계의 선호 최적화(preference optimisation)가 출력 다양성을 합의(consensus) 쪽으로 압축합니다. 새로움을 위협으로 보는 반(反)노벨티 편향이 생깁니다.

논문은 이를 '가설 하이브마인드(hypothesis hivemind)' 실험으로 보강합니다. 서로 다른 제공자의 프런티어 모델들이 해석형·개방형 가설 생성 과제에서 의미적으로 수렴하더라는 관찰로, 다양성 압축이 한 모델만의 문제가 아님을 보입니다.

넷째, 피드백 루프 없는 벤치마크

네 번째 결함은 대부분의 과학 벤치마크가 '단일 턴 예측 정확도'만 측정하고 물리 실험으로 이어지는 피드백 루프가 없다는 것입니다. Bisht 등은 측정이 한 번의 예측 맞히기에 머물러, 실제 실험 결과가 계산 모델로 되돌아오지 않는다고 지적합니다.

자율적 과학은 가설→실험→수정의 폐루프(closed loop)로 굴러갑니다. 그런데 현재 벤치마크에는 이 루프가 빠져 있어, 점수가 높아져도 '발견을 수행하는 능력'은 검증되지 않습니다.

네 결함 비교와 처방

네 가지 결함은 각각 2026년 Bisht 등이 짚은 발견 과정의 서로 다른 단계를 망가뜨립니다. 아래 표는 결함, 망가지는 단계, 그리고 논문이 가리키는 처방 방향을 정리한 것입니다.

설계 결함망가지는 단계처방 방향
McNamara 오류문제 선택측정 용이성이 아닌 중요도로 문제 설정
암묵지 누락 코퍼스지식 기반실패·절차 지식을 데이터에 포함
선호 튜닝의 다양성 붕괴가설 생성합의 압축을 줄이고 새로움 보존
피드백 없는 벤치마크검증·수정물리 실험 폐루프 평가 도입

종합하면 결론은 분명합니다. 2026년의 AI 과학자를 자율 발견 도구로 만들려면, 더 큰 모델이 아니라 문제 선택·데이터·후처리·평가라는 설계 선택을 바꿔야 합니다. 단, 이 논문은 실험 데이터보다 비평·입장(position)에 무게를 둔 글이므로, 결함 진단은 강하지만 구체적 해법은 후속 연구의 몫으로 남습니다.


참고: Agentic AI Scientists Are Not Built For Autonomous Scientific Discovery (Bisht et al., 2026)

← 전체 글 보기