AI 과학자가 자율 발견에 실패하는 이유는 무엇인가요?

2026년 Bisht 등의 arXiv 논문은 AI 과학자가 규모가 작아서가 아니라 구조적으로 잘못 설계됐기 때문이라고 봅니다. 네 가지 근본 원인은 (1) McNamara 오류에 의한 문제 선택 왜곡, (2) 실험실 암묵지·실패 지식을 누락한 학습 코퍼스, (3) 다양성을 합의로 압축하는 선호 튜닝, (4) 물리 실험 피드백 루프가 없는 벤치마크입니다.

McNamara 오류가 AI 과학자와 무슨 관련이 있나요?

McNamara 오류는 측정하기 쉬운 것만 최적화하고 중요한 것을 무시하는 함정입니다. AI 과학자는 정량화·측정이 쉬운 문제로 탐구가 쏠려, 과학적으로 중요하지만 측정이 어려운 문제를 후순위로 밀어내는 문제 선택 편향을 보입니다.

더 큰 모델이나 스캐폴딩으로 해결되나요?

논문은 아니라고 봅니다. 한계는 스케일과 스캐폴딩의 문제가 아니라 설계 선택의 문제이므로, 문제 선택·학습 데이터·후처리·평가 벤치마크라는 근본 설계를 다시 봐야 한다고 주장합니다.

'AI 과학자'가 실패하는 진짜 이유: 더 큰 모델로는 안 되는 네 가지 설계 결함

'AI 과학자(AI scientist)'는 자율적 과학 발견을 하도록 설계되지 않은 시스템이다. 2026년 5월 Harshit Bisht 등이 arXiv에 발표한 입장 논문은 오늘날의 에이전트형 AI 과학자가 단지 규모가 작아서가 아니라 구조적으로 잘못 설계돼 자율성에 도달하지 못한다고 주장하며, 그 근본 원인을 네 가지로 정리한다. 이 글은 그 네 가지 설계 결함과 'McNamara 오류' 프레이밍, 그리고 왜 스캐폴딩(scaffolding)으로는 해결되지 않는지를 직답형으로 정리한다.

논문의 핵심 주장: 규모가 아니라 설계가 문제다

논문의 핵심 주장은 "AI 과학자의 한계는 스케일이 아니라 설계 선택의 문제"라는 것이다. Bisht 등은 2026년 시점의 AI 과학자가 이미 '코사이언티스트(co-scientist)'로는 기능하지만, 완전 자율 발견에는 구조적으로 부적합하다고 본다.

따라서 처방도 달라진다. 더 큰 모델이나 더 정교한 프롬프트 체인을 얹는 스캐폴딩으로는 안 되며, 학습 코퍼스·후처리·벤치마크 같은 근본 설계 선택을 다시 봐야 한다는 것이다.

첫째, McNamara 오류: 측정 가능한 것만 최적화한다

첫 번째 설계 결함은 문제 선택이 'McNamara 오류'에 의해 왜곡된다는 것이다. McNamara 오류는 측정하기 쉬운 지표만 보고 정작 중요한 것을 무시하는 함정으로, AI 과학자는 정량화·측정이 쉬운 문제로 탐구가 쏠린다.

그 결과 과학적으로 중요하지만 측정이 어렵거나 모호한 문제는 후순위로 밀린다. 자율 발견의 출발점인 '무엇을 풀 가치가 있는가'라는 질문 자체가 이미 한쪽으로 기울어 있는 셈이다.

둘째·셋째: 누락된 암묵지와 합의로 수렴하는 선호 튜닝

두 번째와 세 번째 결함은 모델이 무엇으로 학습되고 어떻게 다듬어지는가에서 비롯된다. 둘 다 자율 발견에 필요한 '실패에서 배우기'와 '새로움'을 구조적으로 깎아낸다.

둘째, 코퍼스의 암묵지 누락이다. AI 과학자가 올라탄 대형 언어 모델의 학습 코퍼스는 실험실 현장의 절차적 노하우와 실패 지식(tacit procedural and failure knowledge)을 담지 못한다. 논문은 성공만 기록되는 문헌의 한계를 지적한다.
셋째, 다양성을 붕괴시키는 선호 튜닝이다. 후처리 단계의 선호 최적화(preference optimisation)가 출력 다양성을 합의(consensus) 쪽으로 압축한다. 새로움을 위협으로 보는 반(反)노벨티 편향이 생긴다.

논문은 이를 '가설 하이브마인드(hypothesis hivemind)' 실험으로 보강한다. 서로 다른 제공자의 프런티어 모델들이 해석형·개방형 가설 생성 과제에서 의미적으로 수렴하더라는 관찰로, 다양성 압축이 한 모델만의 문제가 아님을 보인다.

넷째, 피드백 루프 없는 벤치마크

네 번째 결함은 대부분의 과학 벤치마크가 '단일 턴 예측 정확도'만 측정하고 물리 실험으로 이어지는 피드백 루프가 없다는 것이다. Bisht 등은 측정이 한 번의 예측 맞히기에 머물러, 실제 실험 결과가 계산 모델로 되돌아오지 않는다고 지적한다.

자율적 과학은 가설→실험→수정의 폐루프(closed loop)로 굴러간다. 그런데 현재 벤치마크에는 이 루프가 빠져 있어, 점수가 높아져도 '발견을 수행하는 능력'은 검증되지 않는다.

네 결함 비교와 처방

네 가지 결함은 각각 2026년 Bisht 등이 짚은 발견 과정의 서로 다른 단계를 망가뜨린다. 아래 표는 결함, 망가지는 단계, 그리고 논문이 가리키는 처방 방향을 정리한 것이다.

설계 결함	망가지는 단계	처방 방향
McNamara 오류	문제 선택	측정 용이성이 아닌 중요도로 문제 설정
암묵지 누락 코퍼스	지식 기반	실패·절차 지식을 데이터에 포함
선호 튜닝의 다양성 붕괴	가설 생성	합의 압축을 줄이고 새로움 보존
피드백 없는 벤치마크	검증·수정	물리 실험 폐루프 평가 도입

네 결함을 하나로 꿰는 관점: 왜 '더 큰 모델'이 답이 아닌가

네 결함을 따로 보면 각각 하나의 병목처럼 읽히지만, 하나로 꿰어 보면 방향이 같다. 스케일링이 키우는 것은 대체로 학습 분포 안에서의 능력이다. 반면 이 논문이 짚는 네 지점은 모두 분포 밖에 있다. 측정하기 어려운 문제, 문헌에 기록되지 않은 실패, 합의에서 벗어난 가설, 실험으로만 확인되는 결과가 그렇다. 데이터에 없는 신호는 파라미터를 늘린다고 생기지 않는다. 그래서 '더 큰 모델'이라는 처방이 겉돈다.

이 관점은 왜 하필 지금 이런 비판이 나오는지도 설명한다. 코사이언티스트로는 이미 쓸 만하다는 것은, 분포 안에서의 유능함이 포화에 가까워졌다는 신호다. 남은 격차는 규모로 좁혀지지 않는 부분이라, 근본 설계로 논의가 넘어갈 수밖에 없다. 네 결함은 서로 독립된 버그 목록이 아니라, '학습 분포를 벗어난 능력을 어떻게 확보할 것인가'라는 하나의 질문이 네 단계에서 다르게 드러난 것으로 읽는 편이 정확하다.

한국 연구·산업에 주는 함의

한국의 연구실과 기업이 이 논문에서 실무적으로 가져갈 지점은 처방 방향에 있다. 특히 두 번째 결함, 곧 암묵지·실패 지식의 누락은 데이터 전략 차원에서 통제 가능한 변수다. 논문 문헌에는 성공만 남지만, 실제 실험실에는 실패한 조건과 폐기된 프로토콜이 로그로 쌓인다. 이 '기록되지 않는 지식'을 사내·연구실 데이터로 구조화하는 쪽이, 같은 프런티어 모델을 쓰더라도 차별화의 여지가 크다.

가설 다양성의 붕괴는 도구 선택에도 시사점을 준다. 서로 다른 제공자의 모델을 여러 개 붙여도 의미적으로 수렴하더라는 관찰은, '모델을 앙상블하면 다양성이 나온다'는 통념을 약화시킨다. 여러 모델을 병렬로 돌려 새로움을 확보하려는 설계는 기대만큼 효과가 없을 수 있고, 오히려 문제 설정과 평가 방식에서 새로움을 지키는 장치가 더 중요해진다. 검증 단계 역시 마찬가지다. 단일 턴 정확도 벤치마크로 성능을 자랑하기보다, 물리 실험이나 재현 실험으로 되먹임되는 폐루프 평가를 자체적으로 갖추는 조직이 자율 발견에 더 가까워진다.

이 논문을 읽을 때 주의할 점

강한 진단에는 그만큼의 유보가 따른다. 이 논문은 실험 데이터보다 비평·입장(position)에 무게를 둔 글이다. 네 결함의 구조적 진단은 설득력이 있지만, 각 결함이 자율성 격차에 얼마나 기여하는지를 정량적으로 분해하지는 않는다. '가설 하이브마인드' 관찰이 유일한 경험적 뒷받침에 가깝고, 그마저도 수렴 자체가 항상 나쁜지, 어느 과제에서 얼마나 문제인지는 열려 있다.

또한 처방은 방향이지 방법이 아니다. '실패 지식을 데이터에 포함하라', '폐루프 평가를 도입하라'는 지침은 옳은 방향이지만, 어떻게 그 데이터를 확보하고 어떤 실험을 루프에 넣을지는 후속 연구의 몫으로 남는다. 따라서 이 글은 'AI 과학자는 안 된다'는 비관론으로 읽기보다, 규모 경쟁에 쏠린 시선을 설계 선택으로 돌리는 프레이밍으로 읽는 편이 생산적이다.

종합하면 결론은 분명하다. 2026년의 AI 과학자를 자율 발견 도구로 만들려면, 더 큰 모델이 아니라 문제 선택·데이터·후처리·평가라는 설계 선택을 바꿔야 한다. 단, 이 논문은 결함 진단은 강하지만 구체적 해법은 후속 연구의 몫으로 남긴다는 점을 함께 기억할 필요가 있다.

참고: Agentic AI Scientists Are Not Built For Autonomous Scientific Discovery (Bisht et al., 2026)