자기 압축 에이전트: LLM이 스스로 컨텍스트를 줄여 장기 작업을 버틴다

자기 압축 LLM 에이전트는 컨텍스트를 스스로 요약해 장기 작업에서 토큰 비용을 30~70% 줄이고 정확도까지 끌어올린다. 2026년 6월 22일 발표된 "Self-Compacting Language Model Agents" 논문은 미세조정 없이 추론 시점의 요약 도구와 경량 루브릭만으로 이 효과를 냈다. ASAP은 이 논문을 원문 기준으로 정리한다.

메커니즘: 요약 도구와 경량 루브릭의 결합

자기 압축은 모델이 직접 호출하는 요약 도구와 발동 시점을 정하는 경량 루브릭, 두 요소를 추론 시점에 결합한다. 루브릭은 하위 작업이 풀렸거나 궤적이 수렴할 때 압축을 켜고, 도출 중간이거나 막힌 상태에서는 억제하라고 지시한다. 미세조정이나 외부 감독 없이 스캐폴드가 공급하는 능력으로 작동한다.

성능: 수학 최대 18.1점, 검색 5~9점 상승

성능 개선은 수학 과제에서 무요약 기준 대비 최대 18.1점, 에이전트 검색에서 5~9점으로 나타났다. 같은 모델이 압축 도구와 루브릭을 붙였을 때 더 높은 점수를 기록했다. 요약을 단순히 끄거나 고정 간격으로 도는 방식보다 우위를 보였다.

비용: 토큰 30~70% 절감

토큰 비용은 고정 간격 요약 대비 문항당 30~70% 낮아졌다. 고정 간격 요약은 필요 없는 시점에도 컨텍스트를 줄여 호출을 낭비한다. 루브릭 기반 압축은 발동 시점을 골라 비용과 정확도를 동시에 잡는다.

검증: 6개 벤치마크, 7개 모델

검증은 경쟁 수학과 에이전트 검색을 아우르는 6개 벤치마크에서 7개 모델로 진행됐다. 비교 기준은 고정 간격 요약과 무요약 두 가지였다. 프롬프트 없는 모델은 자기 컨텍스트가 썩는 시점을 스스로 알지 못했지만, 경량 루브릭이 그 간극을 메웠다.

정리

Self-Compacting Language Model Agents 연구는 추론 시점 요약 도구와 경량 루브릭으로 에이전트의 장기 작업 효율을 정량 검증했다. 핵심은 수학 최대 18.1점 상승, 검색 5~9점 상승, 토큰 30~70% 절감이다. 장기 에이전트 설계는 컨텍스트를 언제 줄일지 결정하는 루브릭에서 갈린다.

출처: Self-Compacting Language Model Agents (arXiv:2606.23525, 2026년 6월 22일; Tianjian Li, Jingyu Zhang, William Jurayj, Daniel Khashabi 외) 기반 ASAP 정리.

자기 압축 에이전트: LLM이 스스로 컨텍스트를 줄여 장기 작업을 버틴다

메커니즘: 요약 도구와 경량 루브릭의 결합

성능: 수학 최대 18.1점, 검색 5~9점 상승

비용: 토큰 30~70% 절감

검증: 6개 벤치마크, 7개 모델

정리

관련 글

AI·테크 이슈,가장 빠르게

AI·테크 이슈,
가장 빠르게