탈옥해도 멍청해지지 않는다: '탈옥세'가 사라진 프런티어 모델
탈옥(jailbreak)당한 프런티어 모델은 능력의 대부분을 거의 그대로 유지하며, 강한 모델일수록 그 손실은 더 작습니다. Anthropic의 Daniel Zhu 연구팀은 2026년 4월 논문에서 28종의 탈옥과 5개 벤치마크로 측정한 결과, Haiku 4.5는 탈옥 시 평균 33.1% 성능을 잃지만 Opus 4.6은 최대 사고(max thinking)에서 단 7.7%만 잃는다고 보고했습니다. 즉 모델이 강해질수록 '탈옥세(jailbreak tax)'는 줄어듭니다.
탈옥세란 무엇인가
탈옥세는 모델이 탈옥당했을 때 발생하는 능력 저하분을 뜻합니다. 기존 안전 논의는 "복잡한 탈옥은 모델을 멍청하게 만들기 때문에 위험한 출력을 뽑아도 쓸모가 없다"는 가정에 기대 왔습니다. Anthropic 연구팀은 2026년 이 가정을 정면으로 검증했고, 그 가정이 프런티어 모델에서는 무너진다는 것을 보였습니다.
직관적으로 보면 탈옥은 입력·출력을 암호화하거나 역할극으로 모델을 비틀기 때문에 추론을 방해할 법합니다. 하지만 실제 측정값은 그 방해가 능력이 높은 모델일수록 작아진다고 말합니다.
모델이 강해질수록 탈옥세는 줄어든다
탈옥세는 모델 능력과 반비례하며, Claude 계열에서 능력이 높아질수록 탈옥 시 손실이 일관되게 줄었습니다. Haiku 4.5에서 Opus 4.6까지 능력 순으로 Claude 모델을 늘어놓으면, 탈옥 시 평균 성능 손실이 33.1%에서 7.7%로 꾸준히 줄어듭니다.
| 모델 | 탈옥 시 평균 성능 손실 |
|---|---|
| Haiku 4.5 | 약 33.1% |
| (중간 능력대) | 점진적 감소 |
| Opus 4.6 (max thinking) | 약 7.7% |
이 표가 말하는 핵심은 단순합니다. 능력이 높은 모델은 암호화·역할극으로 비틀어도 원래 실력의 대부분을 끌어옵니다.
가장 강한 탈옥은 비용이 거의 0이다
최고 수준의 탈옥은 능력 손실이 거의 없으며, 가장 강한 공격일수록 오히려 탈옥세가 0에 수렴합니다. 배포된 분류기(classifier)에 대해 가장 강력한 탈옥인 Boundary Point는 분류기를 거의 완벽하게 회피하면서도 안전장치가 걸린 모델 전반에서 거의 0에 가까운 성능 저하만 일으켰습니다.
논문이 평가한 탈옥 28종의 구성은 다음과 같습니다.
- 암호(cipher) 기반 19종 — 입력·출력을 난독화해 안전장치를 우회합니다.
- 비암호 기반 9종 — 역할극, 프롬프트 주입, 적대적 접미사(adversarial suffix) 등을 씁니다.
이 두 묶음을 5개 벤치마크에 통과시켜, 탈옥 강도와 능력 손실의 관계를 한꺼번에 비교했습니다.
어떤 작업이 더 깨지는가
탈옥세는 작업 종류에 따라 다르게 나타나며, 5개 벤치마크 중 추론 과제에서 가장 두드러집니다. 모든 모델에서 추론 중심(reasoning-heavy) 작업은 지식 회상(knowledge-recall) 작업보다 훨씬 큰 저하를 보였습니다. 능력이 가장 높은 모델에서도 추론 작업은 손실이 남는 반면, 지식 회상 벤치마크는 탈옥에 거의 영향을 받지 않았습니다.
즉 "탈옥하면 멍청해진다"는 보호막은 추론 과제에서만 부분적으로 작동하고, 위험한 사실 지식을 그대로 끌어내는 데는 사실상 도움이 되지 않습니다.
안전 설계에 주는 함의
안전 사례(safety case)는 탈옥된 모델이 멍청해진다는 전제에 기대서는 안 됩니다. Anthropic 연구팀은 프런티어 모델의 안전 논거가 탈옥에 의한 의미 있는 능력 저하에 의존해서는 안 된다고 2026년 결론지었습니다. 모델이 강해질수록 이 가정의 안전 마진은 사라지기 때문입니다.
실무적으로는 두 가지가 따라옵니다. 첫째, 거부(refusal)와 탐지·분류기 같은 외부 방어가 능력 저하라는 부수 효과보다 더 핵심적인 방어선이 됩니다. 둘째, 위험 평가는 "탈옥하면 쓸모가 떨어진다"가 아니라 "탈옥하면 거의 전부 쓸 수 있다"는 최악 가정에서 출발해야 합니다.
참고: Jailbroken Frontier Models Retain Their Capabilities (Zhu et al., 2026)