LongDS-Bench는 무엇을 측정하나요?

LongDS-Bench는 에이전트가 분석 상태를 유지·갱신·복원·합성하는 능력을 측정하는 장기 다중턴 데이터 분석 벤치마크입니다. 저장강대학교·DataMind 연구진이 2026년 공개했으며, 실제 Kaggle 노트북 68개에서 2,225턴을 추출해 만들었고 평균 의존성 거리는 11.3턴입니다. 롤백, 반사실 교란, 다중상태 합성 같은 상태 진화 능력을 단일 턴 평가가 놓치는 방식으로 분리해 측정합니다.

장기 에이전트는 왜 실패하나요?

LongDS-Bench의 진단에 따르면 장기 에이전트 실패의 52~69%는 진화하는 상태를 잃거나 망가뜨린 데서 발생합니다. 약한 추론 한 단계 때문이 아니라, 평균 11.3턴에 걸쳐 누적된 상태를 후반까지 정확히 끌고 가지 못하는 것이 지배적 원인입니다. 초반 대비 후반 정확도가 약 47점 하락하고, 최고 모델조차 평균 48.45%에 그칩니다.

단일 턴 평가로는 왜 부족한가요?

단일 턴 벤치마크는 질문 하나에 답변 하나를 채점하므로 한 단계의 추론 품질만 재고, 11.3턴에 걸쳐 상태를 끌고 가는 능력은 구조적으로 측정하지 못합니다. LongDS-Bench는 롤백, 반사실 교란, 다중상태 합성이라는 세 가지 상태 진화 능력을 분리해 평가함으로써 에이전트가 상태를 잃는 순간을 드러냅니다.

AI 에이전트는 왜 11번째 단계에서 무너지나: 화려한 데모 뒤의 상태추적 벽

장기 에이전트의 실패는 약한 추론 한 단계가 아니라 '진화하는 상태'를 잃거나 망가뜨리는 데서 온다는 것이 LongDS-Bench의 결론이다. 저장강대학교(Zhejiang University)·DataMind 연구진은 2026년 5월 실제 Kaggle 노트북 68개(총 2,225턴, 평균 의존성 거리 11.3턴)로 벤치마크를 만들어, 단일 턴 평가가 놓치는 상태 진화 능력을 분리해 측정했다. 그 결과 초반 대비 후반 정확도가 약 47점 떨어졌고, 전체 실패의 52~69%가 장기 의존성 오류였으며 최고 모델조차 평균 48.45%에 그쳤다.

'상태'라는 단어가 벤치마크의 축이 된 이유

LongDS-Bench는 에이전트가 분석 상태를 유지·갱신·복원·합성하는 능력을 측정하는 장기 다중턴 데이터 분석 벤치마크다. 저장강대학교·DataMind 연구진이 2026년 공개했고, 실제 Kaggle 노트북 68개에서 2,225턴을 추출해 지구과학·비즈니스·교육 등 6개 도메인을 담았다.

여기서 '상태'는 앞 턴에서 만든 변수·필터·중간 결과가 뒤 턴의 입력이 되는 누적 맥락을 뜻한다. 평균 의존성 거리 11.3턴은, 한 단계의 결정이 평균 11턴 뒤 결과까지 영향을 미친다는 의미다. 대다수 기존 벤치마크가 질문 하나에 답 하나를 채점해 '한 단계의 추론 품질'을 재던 것과 달리, LongDS-Bench는 시간이 지나며 쌓이는 이 맥락 자체를 채점 대상으로 끌어올린다. 평가의 단위가 '한 수'에서 '한 판'으로 바뀐 셈이다.

상태를 나누어 재는 세 가지 능력

LongDS-Bench는 상태 진화 능력을 세 갈래로 분리해 평가한다. 롤백(rollback)은 잘못된 중간 단계로 돌아가 이전 상태를 복원하는 능력, 반사실 교란(counterfactual perturbation)은 앞선 가정 하나를 바꿨을 때 의존하던 결과를 일관되게 갱신하는 능력, 다중상태 합성(multi-state composition)은 서로 다른 시점의 여러 상태를 하나로 결합하는 능력이다.

이 세 축은 실제 분석가의 작업 습관과 정확히 겹친다. 가설을 되돌리고, 전제를 바꿔 다시 계산하고, 여러 중간 결과를 합쳐 결론을 내리는 일 말이다. 평가가 '정답 맞히기'에서 '작업 흐름 유지하기'로 이동했다는 점이 핵심이다.

후반부 47점 하락을 어떻게 읽어야 하나

에이전트 정확도는 초반 턴에서 후반 턴으로 갈수록 약 47점 급락한다. 2026년 LongDS-Bench가 5개 최신 모델을 평가한 결과, 초반에 잘하던 모델도 의존성이 누적되는 후반에서 일관되게 무너졌다. 이 하락은 특정 모델의 결함이 아니라 공통 패턴이며, 최고 성능 모델조차 평균 48.45%에 머물렀다.

숫자를 읽을 때 유의할 점이 있다. 47점은 '난도가 올라가서'가 아니라 '앞의 상태를 놓쳐서' 벌어진 격차에 가깝다. 후반 턴 자체가 더 어려운 문제라서가 아니라, 초반의 실수가 11턴 뒤까지 전파되며 오차가 복리처럼 쌓인다는 뜻으로 해석하는 편이 실전에 맞는다.

실패의 절반 이상이 '상태 손상'인 이유

장기 에이전트 실패의 52~69%는 진화하는 상태를 잃거나 망가뜨린 데서 발생한다. 모델이 어느 한 단계의 추론을 못해서가 아니라, 누적된 상태를 후반까지 정확히 끌고 가지 못하는 것이 지배적 원인이라는 진단이다.

구분	단일 턴 관점	LongDS-Bench의 진단
실패 위치	개별 추론 단계	누적된 상태의 손상
측정 단위	질문 1개	평균 11.3턴 의존성
후반 정확도	측정 안 됨	초반 대비 약 47점 하락
주된 오류	단편적	장기 오류가 52~69%

함의는 분명하다. 더 똑똑한 단일 추론보다, 상태를 안전하게 저장·복원·합성하는 메커니즘이 신뢰할 수 있는 에이전트의 관건이라는 것이다.

ASAP의 시각: 국내 도입과 남은 질문

이 결과는 국내 현장에도 곧바로 닿는다. 국내에서 데이터 분석·리서치 에이전트를 도입하려는 팀은 짧은 데모 성공률이 아니라, 열 턴을 넘겨 상태를 끌고 가는 능력을 기준으로 검증해야 한다는 실무 신호다. 도입 검토 시 '몇 턴짜리 작업인가', '중간에 되돌리거나 전제를 바꿀 일이 있는가'를 먼저 묻는 편이 실패 비용을 줄인다.

다만 한계와 열린 질문도 남는다. 벤치마크가 Kaggle 노트북 기반이라 정형 데이터 분석에 치우쳐 있고, 코드 실행·문서 작성 같은 다른 장기 과제로 이 패턴이 그대로 이어질지는 아직 확인 대상이다. 또 상태 손상이 원인이라는 진단은 명확하지만, 외부 메모리·체크포인트 같은 처방이 47점 격차를 얼마나 메울지는 후속 연구의 몫이다. 분명한 것은 다음 국면이다. 단일 턴 점수 경쟁보다 상태 추적·롤백·합성을 평가하고 강화하는 방향으로 에이전트 연구의 무게중심이 옮겨가고 있다.

참고: LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis (Xu, Lu, Qiao et al., 2026)