탈옥해도 멍청해지지 않는다: '탈옥세'가 사라진 프런티어 모델

탈옥(jailbreak)당한 프런티어 모델은 능력의 대부분을 거의 그대로 유지하며, 강한 모델일수록 그 손실은 더 작다. Anthropic의 Daniel Zhu 연구팀은 2026년 4월 논문에서 28종의 탈옥과 5개 벤치마크로 측정한 결과, Haiku 4.5는 탈옥 시 평균 33.1% 성능을 잃지만 Opus 4.6은 최대 사고(max thinking)에서 단 7.7%만 잃는다고 보고했다. 즉 모델이 강해질수록 '탈옥세(jailbreak tax)'는 줄어든다.

오래된 안전 가정 하나가 깨졌다

탈옥세는 모델이 탈옥당했을 때 발생하는 능력 저하분을 뜻한다. 기존 안전 논의는 "복잡한 탈옥은 모델을 멍청하게 만들기 때문에 위험한 출력을 뽑아도 쓸모가 없다"는 가정에 기대 왔다. Anthropic 연구팀은 2026년 이 가정을 정면으로 검증했고, 그 가정이 프런티어 모델에서는 무너진다는 것을 보였다.

직관적으로 보면 탈옥은 입력과 출력을 암호화하거나 역할극으로 모델을 비틀기 때문에 추론을 방해할 법하다. 하지만 실제 측정값은 그 방해가 능력이 높은 모델일수록 작아진다고 말한다.

능력이 오를수록 세금이 내리는 곡선

탈옥세는 모델 능력과 반비례하며, Claude 계열에서 능력이 높아질수록 탈옥 시 손실이 일관되게 줄었다. Haiku 4.5에서 Opus 4.6까지 능력 순으로 Claude 모델을 늘어놓으면, 탈옥 시 평균 성능 손실이 33.1%에서 7.7%로 꾸준히 줄어든다.

모델	탈옥 시 평균 성능 손실
Haiku 4.5	약 33.1%
(중간 능력대)	점진적 감소
Opus 4.6 (max thinking)	약 7.7%

이 표가 말하는 핵심은 단순하다. 능력이 높은 모델은 암호화와 역할극으로 비틀어도 원래 실력의 대부분을 끌어온다.

왜 강한 모델일수록 덜 취약한가 (해석)

이 곡선을 뒤집어 읽으면 불편한 함의가 나온다. 탈옥이 능력을 깎는 이유는 암호화나 역할극이라는 '껍데기'를 벗겨내는 데 모델이 인지 자원을 쓰기 때문이라고 볼 수 있다. 능력이 약한 모델은 이 껍데기 처리에 힘을 다 쓰고 정작 본 과제에서 무너지지만, 강한 모델은 껍데기를 손쉽게 통과시키고 본래 실력을 그대로 발휘한다.

문제는 방향이다. 업계가 자랑하는 능력 향상 곡선과 안전 마진 축소 곡선이 정확히 겹친다. 모델을 똑똑하게 만들려는 노력이 곧 "탈옥해도 멍청해지지 않는" 모델을 만드는 셈이다. 능력과 안전이 같은 다이얼을 공유한다면, 성능 경쟁이 가속될수록 이 방어막은 자동으로 얇아진다.

가장 강한 탈옥은 비용이 거의 0이다

최고 수준의 탈옥은 능력 손실이 거의 없으며, 가장 강한 공격일수록 오히려 탈옥세가 0에 수렴한다. 배포된 분류기(classifier)에 대해 가장 강력한 탈옥인 Boundary Point는 분류기를 거의 완벽하게 회피하면서도 안전장치가 걸린 모델 전반에서 거의 0에 가까운 성능 저하만 일으켰다.

논문이 평가한 탈옥 28종의 구성은 다음과 같다.

암호(cipher) 기반 19종: 입력과 출력을 난독화해 안전장치를 우회한다.
비암호 기반 9종: 역할극, 프롬프트 주입, 적대적 접미사(adversarial suffix) 등을 쓴다.

이 두 묶음을 5개 벤치마크에 통과시켜, 탈옥 강도와 능력 손실의 관계를 한꺼번에 비교했다.

어떤 작업이 더 깨지는가

탈옥세는 작업 종류에 따라 다르게 나타나며, 5개 벤치마크 중 추론 과제에서 가장 두드러진다. 모든 모델에서 추론 중심(reasoning-heavy) 작업은 지식 회상(knowledge-recall) 작업보다 훨씬 큰 저하를 보였다. 능력이 가장 높은 모델에서도 추론 작업은 손실이 남는 반면, 지식 회상 벤치마크는 탈옥에 거의 영향을 받지 않았다.

즉 "탈옥하면 멍청해진다"는 보호막은 추론 과제에서만 부분적으로 작동하고, 위험한 사실 지식을 그대로 끌어내는 데는 사실상 도움이 되지 않는다.

숫자를 어떻게 읽어야 하나 (해석)

7.7%라는 수치는 안심할 근거가 아니라 오히려 경고로 읽어야 한다. 위험 평가에서 중요한 것은 평균 손실이 아니라 남은 능력이다. Opus 4.6이 능력의 92% 이상을 유지한다면, 공격자 입장에서 프런티어 모델은 탈옥 후에도 사실상 온전한 도구다.

작업별 편차도 방심할 수 없다. 지식 회상이 탈옥에 거의 영향받지 않는다는 결과는, 위험한 사실 정보를 뽑아내는 시나리오에서 능력 저하가 방어선이 되어주지 못한다는 뜻이다. 다만 이 논문은 Claude 계열과 특정 5개 벤치마크에 한정된 측정이라는 점은 짚어야 한다. 다른 아키텍처나 다른 과제군에서 같은 곡선이 재현되는지는 별도의 검증이 필요하며, "능력이 곧 안전 마진 축소"라는 명제를 모든 모델로 일반화하기에는 표본이 좁다.

안전 설계에 주는 함의

안전 사례(safety case)는 탈옥된 모델이 멍청해진다는 전제에 기대서는 안 된다. Anthropic 연구팀은 프런티어 모델의 안전 논거가 탈옥에 의한 의미 있는 능력 저하에 의존해서는 안 된다고 2026년 결론지었다. 모델이 강해질수록 이 가정의 안전 마진은 사라지기 때문이다.

실무적으로는 두 가지가 따라온다. 첫째, 거부(refusal)와 탐지·분류기 같은 외부 방어가 능력 저하라는 부수 효과보다 더 핵심적인 방어선이 된다. 둘째, 위험 평가는 "탈옥하면 쓸모가 떨어진다"가 아니라 "탈옥하면 거의 전부 쓸 수 있다"는 최악 가정에서 출발해야 한다.

참고: Jailbroken Frontier Models Retain Their Capabilities (Zhu et al., 2026)