AI 에이전트는 왜 11번째 단계에서 무너지나: 화려한 데모 뒤의 상태추적 벽
장기 에이전트의 실패는 약한 추론 한 단계가 아니라 '진화하는 상태'를 잃거나 망가뜨리는 데서 온다는 것이 LongDS-Bench의 결론입니다. 저장강대학교(Zhejiang University)·DataMind 연구진은 2026년 5월 실제 Kaggle 노트북 68개(총 2,225턴, 평균 의존성 거리 11.3턴)로 벤치마크를 만들어, 단일 턴 평가가 놓치는 상태 진화 능력을 분리해 측정했습니다. 그 결과 초반 대비 후반 정확도가 약 47점 떨어졌고, 전체 실패의 52~69%가 장기 의존성 오류였으며 최고 모델조차 평균 48.45%에 그쳤습니다.
LongDS-Bench는 무엇을 측정하나
LongDS-Bench는 에이전트가 분석 상태를 유지·갱신·복원·합성하는 능력을 측정하는 장기 다중턴 데이터 분석 벤치마크입니다. 저장강대학교·DataMind 연구진이 2026년 공개한 이 벤치마크는 실제 Kaggle 노트북 68개에서 2,225턴을 추출해 만들었으며, 지구과학·비즈니스·교육 등 6개 도메인을 포함합니다.
핵심은 '상태'입니다. 한 번의 질문-답변이 아니라, 앞 턴에서 만든 변수·필터·중간 결과가 뒤 턴의 입력이 되는 누적 작업을 평가 대상으로 삼습니다. 평균 의존성 거리는 11.3턴으로, 한 단계의 결정이 평균 11턴 뒤 결과까지 영향을 미친다는 뜻입니다.
왜 단일 턴 평가로는 부족한가
단일 턴 벤치마크는 에이전트가 상태를 잃는 순간을 구조적으로 볼 수 없습니다. 질문 하나에 답변 하나를 채점하는 방식은 '한 단계의 추론 품질'은 재지만, 11.3턴에 걸쳐 상태를 끌고 가는 능력은 측정하지 못합니다.
LongDS-Bench는 이를 위해 세 가지 상태 진화 능력을 분리해 평가합니다.
- 롤백(rollback): 잘못된 중간 단계로 돌아가 이전 상태를 복원하는 능력.
- 반사실 교란(counterfactual perturbation): 앞선 가정 하나를 바꿨을 때 의존하던 결과를 일관되게 갱신하는 능력.
- 다중상태 합성(multi-state composition): 서로 다른 시점의 여러 상태를 하나로 결합하는 능력.
정확도는 후반으로 갈수록 무너진다
에이전트 정확도는 초반 턴에서 후반 턴으로 갈수록 약 47점 급락합니다. 2026년 LongDS-Bench가 5개 최신 모델을 평가한 결과, 초반에는 비교적 잘하던 모델도 의존성이 누적되는 후반 턴에서 일관되게 무너졌습니다.
이 하락은 특정 모델의 문제가 아니라 공통 패턴입니다. 최고 성능 모델조차 평균 정확도 48.45%에 머물렀고, 절반에 미치지 못하는 점수는 장기 과제에서 상태를 끝까지 유지하기가 얼마나 어려운지를 보여줍니다.
실패의 원인은 '상태 손상'이다
장기 에이전트 실패의 52~69%는 진화하는 상태를 잃거나 망가뜨린 데서 발생합니다. 즉 모델이 어느 한 단계의 추론을 못해서가 아니라, 누적된 상태를 후반까지 정확히 끌고 가지 못하는 것이 실패의 지배적 원인이라는 진단입니다.
| 구분 | 단일 턴 관점 | LongDS-Bench의 진단 |
|---|---|---|
| 실패 위치 | 개별 추론 단계 | 누적된 상태의 손상 |
| 측정 단위 | 질문 1개 | 평균 11.3턴 의존성 |
| 후반 정확도 | 측정 안 됨 | 초반 대비 약 47점 하락 |
| 주된 오류 | 단편적 | 장기 오류가 52~69% |
이 진단의 함의는 분명합니다. 더 똑똑한 단일 추론보다, 상태를 안전하게 저장·복원·합성하는 메커니즘이 신뢰할 수 있는 에이전트의 관건이라는 것입니다.
화려한 데모와 실제 신뢰성의 간극
짧은 데모에서의 성공은 장기 신뢰성을 보장하지 않습니다. 데모는 보통 몇 턴 안에 끝나지만, 실제 데이터 분석은 11턴을 넘기며 앞선 상태에 계속 의존합니다. LongDS-Bench는 바로 이 '11번째 단계의 벽'을 정량화해, 2026년 현재 에이전트가 데모와 실전 사이에 남긴 간극을 드러냅니다.
다음 과제도 분명합니다. 단일 턴 추론 점수를 올리는 경쟁보다, 상태 추적·롤백·합성을 평가하고 강화하는 방향이 에이전트 연구의 다음 국면이 됩니다.
참고: LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis (Xu, Lu, Qiao et al., 2026)