'좀비 에이전트': 자가진화 AI 에이전트는 한 번의 주입으로 영구 탈취된다

자가진화하는 LLM 에이전트는 단 한 번의 간접 주입만으로 영구히 탈취될 수 있습니다. 2026년 2월 공개된 '좀비 에이전트(Zombie Agents)' 논문은 공격자가 웹 콘텐츠에 심은 악성 명령이 에이전트의 장기 메모리에 저장되면, 세션이 바뀌어도 되살아나 무단 도구 실행을 일으킨다는 점을 보였습니다. ASAP은 이 논문을 원문 기준으로 정리합니다.

두 단계로 작동한다: 감염과 발동

좀비 에이전트 공격은 감염과 발동이라는 두 단계로 LLM 에이전트를 장악합니다. 감염 단계에서 공격자는 에이전트가 정상 작업 중 마주치는 웹 콘텐츠에 악성 페이로드를 심고, 이 페이로드는 표준 메모리 업데이트 과정을 통해 장기 메모리에 기록됩니다. 발동 단계에서는 저장된 페이로드가 다시 검색되어 무단 도구 동작을 활성화합니다. 모델 내부 접근이 필요 없는 블랙박스 공격입니다.

왜 영구적인가: 메모리가 공격을 되살린다

공격의 지속성은 슬라이딩 윈도우와 RAG 메모리에 각각 맞춘 맞춤 지속 전략에서 나옵니다. 연구진은 슬라이딩 윈도우와 검색증강(RAG) 같은 흔한 메모리 유형마다 맞춤 지속 전략을 설계했고, 이 전략은 메모리 잘림과 관련도 필터링을 견딥니다. 논문은 메모리 진화가 일회성 간접 주입을 영구 침해로 바꾼다고 정리합니다.

세션별 필터링으로는 막지 못한다

세션마다 프롬프트를 거르는 방어는 자가진화하는 LLM 에이전트를 지키지 못합니다. 위협 모델에서 정상 세션 중 마주친 비신뢰 외부 콘텐츠가 검색 가능한 메모리로 저장되고, 이후 명령처럼 재사용됩니다. 따라서 방어를 세션 단위 입력 검사에만 두면 자가진화 에이전트에는 충분하지 않습니다.

의미: 장기 메모리가 곧 공격 표면이다

장기 메모리는 RAG 기반 에이전트에서 그 자체로 새로운 공격 표면이 됩니다. 에이전트에 기억을 붙여 더 똑똑하게 만들수록, 한 번 들어온 악성 명령이 머무를 곳도 함께 늘어납니다. 방어는 입력 단계를 넘어 메모리 쓰기와 검색 단계까지 내려가야 합니다.

정리

좀비 에이전트 연구는 자가진화 에이전트가 한 번의 간접 주입으로 영구 탈취될 수 있음을 보였습니다. 핵심은 감염과 발동의 두 단계, 메모리 유형별 지속 전략, 세션 필터링의 한계입니다. 에이전트에 메모리를 붙일수록 방어선은 메모리 안쪽으로 옮겨가야 합니다.

출처: Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections (arXiv:2602.15654, 2026년 2월; Xianglin Yang 외) 기반 ASAP 정리.

'좀비 에이전트': 자가진화 AI 에이전트는 한 번의 주입으로 영구 탈취된다

두 단계로 작동한다: 감염과 발동

왜 영구적인가: 메모리가 공격을 되살린다

세션별 필터링으로는 막지 못한다

의미: 장기 메모리가 곧 공격 표면이다

정리

관련 글

AI·테크 이슈,가장 빠르게

AI·테크 이슈,
가장 빠르게