앤트로픽 페이블 5, '딥SWE' 코딩 벤치마크 1위 등극
앤트로픽의 클로드 페이블 5(Claude Fable 5)가 AI 벤치마크 기관 아티피셜 애널리시스(Artificial Analysis)의 코딩 에이전트 평가에서 1위에 올랐습니다. 아티피셜 애널리시스는 기존 SWE-Bench Pro를 데이터커브(Datacurve)의 '딥SWE(DeepSWE)'로 교체했고, 클로드 코드와 결합한 페이블 5가 77점으로 선두를 차지했습니다. 오픈AI의 GPT-5.5(코덱스)가 76점으로 뒤를 이었습니다. 2026년 6월 9일 공개된 페이블 5의 코딩 실력이 독립 벤치마크에서 확인된 셈입니다.
무엇이 발표됐나
아티피셜 애널리시스가 코딩 에이전트 순위에서 페이블 5를 1위로 발표했습니다. 클로드 코드(Claude Code)에 페이블 5[max]를 결합한 구성이 코딩 에이전트 지수 77점으로 선두에 올랐고, 오픈AI 코덱스(Codex)+GPT-5.5[xhigh]가 76점, 클로드 코드+옵스 4.8[max]이 73점을 기록했습니다. 페이블 5는 2026년 6월 9일 공개된 앤트로픽의 최신 모델로, 발표 직후 독립 평가에서 코딩 부문 1위를 차지했습니다.
딥SWE 벤치마크란 무엇인가
딥SWE는 실제 소프트웨어 개발 과제를 처음부터 새로 만들어 AI의 코딩 능력을 측정하는 벤치마크입니다. 아티피셜 애널리시스는 기존에 쓰던 SWE-Bench Pro가 저장소 기록 유출 등으로 점수를 부풀리기 쉬워졌다고 보고, 데이터커브가 만든 딥SWE로 교체했다고 밝혔습니다. 딥SWE는 공개된 코드 이력에 의존하지 않고 새 과제를 출제해, 모델이 학습 데이터를 외워 푸는 '벤치마크 조작'을 줄이는 것이 목적입니다.
페이블 5의 코딩 성능은 어느 정도인가
페이블 5는 여러 코딩 지표에서 최상위권 성적을 기록했습니다. 공개된 수치에 따르면 페이블 5는 SWE-bench Verified에서 95.0%, SWE-bench Pro에서 80.0%를 기록했고, 코드 관련 평가인 프런티어코드(FrontierCode)에서 1위에 올랐습니다. 여기에 이번 딥SWE 기반 코딩 에이전트 지수 1위가 더해지며, 페이블 5가 출시 시점 기준 코딩에 가장 강한 모델 중 하나로 평가됐습니다.
왜 중요한가
이번 결과는 벤치마크의 신뢰성과 모델 경쟁 구도를 동시에 보여줍니다. 평가 기관이 조작 가능성이 커진 벤치마크를 폐기하고 새 평가로 교체한 것은, AI 성능 수치의 신뢰를 지키려는 흐름을 반영합니다. 또한 페이블 5와 GPT-5.5의 점수 차가 1점에 불과해, 코딩 에이전트 분야의 선두 경쟁이 매우 치열함을 드러냅니다. 개발자에게는 어떤 모델·도구 조합이 실제 작업에서 더 나은지를 가늠하는 참고가 됩니다.
출처: Artificial Analysis · AI타임스 · LLM-Stats