무엇이 발표됐나

아티피셜 애널리시스가 코딩 에이전트 순위에서 페이블 5를 1위로 발표했습니다. 클로드 코드에 페이블 5[max]를 결합한 구성이 코딩 에이전트 지수 77점으로 선두에 올랐고, 오픈AI 코덱스+GPT-5.5[xhigh]가 76점, 클로드 코드+옵스 4.8[max]이 73점을 기록했습니다. 페이블 5는 2026년 6월 9일 공개된 앤트로픽의 최신 모델입니다.

딥SWE 벤치마크란 무엇인가

딥SWE는 실제 소프트웨어 개발 과제를 처음부터 새로 만들어 AI의 코딩 능력을 측정하는 벤치마크입니다. 아티피셜 애널리시스는 기존 SWE-Bench Pro가 저장소 기록 유출 등으로 점수를 부풀리기 쉬워졌다고 보고 데이터커브의 딥SWE로 교체했다고 밝혔습니다. 딥SWE는 공개된 코드 이력에 의존하지 않고 새 과제를 출제해 벤치마크 조작을 줄이는 것이 목적입니다.

평가 기관이 조작 가능성이 커진 벤치마크를 폐기하고 새 평가로 교체한 것은 AI 성능 수치의 신뢰를 지키려는 흐름을 반영합니다. 또한 페이블 5와 GPT-5.5의 점수 차가 1점에 불과해 코딩 에이전트 분야의 선두 경쟁이 매우 치열함을 보여줍니다.

앤트로픽 페이블 5, '딥SWE' 코딩 벤치마크 1위 등극

Q: 페이블 5의 코딩 성능은 어느 정도인가

페이블 5는 여러 코딩 지표에서 최상위권 성적을 기록했습니다. 공개된 수치에 따르면 SWE-bench Verified에서 95.0%, SWE-bench Pro에서 80.0%를 기록했고, 프런티어코드(FrontierCode)에서 1위에 올랐습니다. 여기에 딥SWE 기반 코딩 에이전트 지수 1위가 더해졌습니다.

앤트로픽의 클로드 페이블 5(Claude Fable 5)가 AI 벤치마크 기관 아티피셜 애널리시스(Artificial Analysis)의 코딩 에이전트 평가에서 1위에 올랐다. 아티피셜 애널리시스는 기존 SWE-Bench Pro를 데이터커브(Datacurve)의 '딥SWE(DeepSWE)'로 교체했고, 클로드 코드와 결합한 페이블 5가 77점으로 선두를 차지했다. 오픈AI의 GPT-5.5(코덱스)가 76점으로 뒤를 이었다. 2026년 6월 9일 공개된 페이블 5의 코딩 실력이 독립 벤치마크에서 확인된 셈이다.

순위표를 뜯어보면 보이는 것

숫자를 그대로 옮기면 세 줄에 불과하다. 페이블 5[max]+클로드 코드 77점, GPT-5.5[xhigh]+코덱스 76점, 옵스 4.8[max]+클로드 코드 73점. 그러나 이 배열은 두 가지를 동시에 말한다. 첫째, 1위와 2위의 격차가 1점이다. 벤치마크 오차 범위를 감안하면 사실상 동률로 읽는 편이 안전하다. 둘째, 같은 클로드 코드 위에서 페이블 5와 옵스 4.8의 차이가 4점이다. 즉 도구가 같아도 모델 세대가 바뀌면 실측 성능이 유의미하게 움직인다는 뜻이다. 순위 1위라는 헤드라인보다, 모델과 도구가 하나의 세트로 평가되기 시작했다는 사실이 이 표의 진짜 메시지다.

왜 벤치마크를 갈아엎었나

아티피셜 애널리시스가 SWE-Bench Pro를 폐기하고 딥SWE로 교체한 결정은 단순한 지표 업데이트가 아니다. 공개 저장소 기록에 의존하는 평가는 시간이 갈수록 모델이 정답 이력을 학습해버려 점수가 부풀려진다. 새 과제를 처음부터 출제하는 딥SWE는 이 오염을 차단하려는 시도다. 여기서 읽어야 할 흐름은 벤치마크의 '수명'이 짧아지고 있다는 점이다. 유명해진 지표일수록 학습 데이터로 흡수되어 변별력을 잃는다. 앞으로 신뢰할 만한 코딩 평가는 비공개·갱신형 과제 쪽으로 계속 이동할 가능성이 크다.

페이블 5의 코딩 성능은 어느 정도인가

페이블 5는 여러 코딩 지표에서 최상위권 성적을 기록했다. 공개된 수치에 따르면 페이블 5는 SWE-bench Verified에서 95.0%, SWE-bench Pro에서 80.0%를 기록했고, 코드 관련 평가인 프런티어코드(FrontierCode)에서 1위에 올랐다. 여기에 이번 딥SWE 기반 코딩 에이전트 지수 1위가 더해지며, 페이블 5가 출시 시점 기준 코딩에 가장 강한 모델 중 하나로 평가됐다.

한국 개발 현장에서 이 숫자를 어떻게 읽을까

국내 팀이 이 결과를 그대로 도입 근거로 삼기에는 한 겹의 해석이 필요하다. 딥SWE는 영어 기반 과제이며, 한국어 요구사항 정리나 사내 레거시 대응 같은 실무 변수를 반영하지 않는다. 1점 차 1위가 도구 전환의 이유가 되기는 어렵다는 뜻이다. 오히려 실무자가 챙길 지점은 '모델 단독이 아니라 클로드 코드 같은 에이전트 도구와의 조합이 평가된다'는 대목이다. 도입을 고민한다면 벤치마크 순위보다 자기 저장소에서의 소규모 파일럿, 코드리뷰 통과율, 리롤 비용을 직접 재보는 편이 훨씬 신뢰할 만하다.

ASAP의 관점: 무엇을 경계할까

이 발표에는 유용한 신호와 과대 해석 위험이 함께 있다. 신호는 명확하다. 평가 기관이 조작 가능성이 커진 지표를 스스로 버렸다는 사실은 수치 신뢰를 지키려는 건강한 움직임이다. 경계할 지점도 분명하다. 벤치마크 1위는 특정 시점, 특정 과제군에서의 스냅샷일 뿐이며, 1점 차를 우열로 확정하는 순간 마케팅 언어로 미끄러진다. 페이블 5가 6월 9일 공개 직후 1위에 올랐다는 점은 인상적이지만, 벤치마크는 빠르게 재역전된다. 숫자는 참고하되 결론은 자기 워크플로에서 내리는 것이 맞다.

출처: Artificial Analysis · AI타임스 · LLM-Stats

앤트로픽 페이블 5, '딥SWE' 코딩 벤치마크 1위 등극

순위표를 뜯어보면 보이는 것

왜 벤치마크를 갈아엎었나

페이블 5의 코딩 성능은 어느 정도인가

한국 개발 현장에서 이 숫자를 어떻게 읽을까

ASAP의 관점: 무엇을 경계할까

관련 글

AI·테크 이슈,가장 깊게

AI·테크 이슈,
가장 깊게