재귀적 자기개선(RSI)이란? AI가 스스로 진화하는 최신 리서치

AI가 사람의 손을 거치지 않고 '스스로 더 똑똑해질 수 있는가'는 2026년 AI 연구의 가장 뜨거운 질문입니다. 이를 재귀적 자기개선(RSI, Recursive Self-Improvement)이라 부르며, 샘 올트먼이 GPT-5.6과 관련해 언급하면서 다시 주목받고 있습니다. 4월 ICLR 2026에서는 RSI만 다루는 첫 워크숍이 열렸고, 실제로 AI가 자기 알고리즘·코드를 개선한 사례도 나왔습니다. 이 글에서는 RSI가 무엇인지, 어디까지 와 있는지, 그리고 핵심 한계인 '재귀적 드리프트'까지 쉽게 정리합니다.
RSI(재귀적 자기개선)란 무엇인가
재귀적 자기개선은 AI가 자신의 성능을 스스로 향상시키고, 그 향상된 능력으로 다시 자신을 개선하는 반복 과정을 말합니다. 사람이 매번 개입해 튜닝하는 대신, 모델이 자기 코드·프롬프트·학습 데이터를 직접 고치며 나아지는 그림입니다.
핵심은 '재귀'입니다. 한 번 좋아진 AI가 다음 개선을 더 잘하게 되면, 개선이 개선을 부르는 가속이 가능하다는 가설입니다. 그래서 안전·정책 연구자들도 RSI를 중요하게 봅니다.
왜 지금 화두인가
계기는 두 가지입니다. 하나는 샘 올트먼이 GPT-5.6과 관련해 재귀적 자기개선 역량을 언급한 것이고, 다른 하나는 2026년 4월 ICLR에서 RSI만 다루는 첫 전용 워크숍이 열린 것입니다.
즉 RSI는 더 이상 사고실험이 아니라, 연구·산업 양쪽에서 '실제로 어디까지 되나'를 따지는 단계로 넘어왔습니다. LLM 에이전트가 자기 코드나 프롬프트를 다시 쓰고, 과학 발견 파이프라인이 지속적 미세조정을 스스로 거는 사례가 등장했습니다.
실제 연구 사례
가장 인상적인 사례는 딥마인드의 AlphaEvolve입니다. Gemini가 진화적 탐색을 안내해, 1969년 슈트라센 이후 정체됐던 행렬 곱셈 알고리즘을 더 빠른 버전으로 찾아냈습니다.
다른 사례도 있습니다. Agent0는 두 에이전트가 서로 문제를 내고 푸는 적대적 공진화로 수학 추론 18%, 일반 추론 24% 향상을 보고했고, 카파시의 AutoResearch는 GPU 한 대에서 이틀간 700번의 ML 실험을 돌려 학습을 빠르게 하는 방법 20가지를 찾아냈다고 알려졌습니다.
핵심 한계: '재귀적 드리프트'
장밋빛만은 아닙니다. RSI의 근본 난관은 '재귀적 드리프트(recursive drift)'입니다. 모델이 자기가 만든 데이터로 학습할 때, 중간 추론 단계의 작은 오류가 반복을 거치며 눈덩이처럼 누적되는 현상입니다.
그래서 최신 연구들은 '검증'에 집중합니다. 외부 피드백 없이 스스로 점검하는 테스트타임 재귀 사고, 기호적 검증을 결합한 자기정렬처럼, 개선이 엉뚱한 방향으로 새지 않게 잡아 주는 장치가 핵심 과제로 떠올랐습니다.
우리에게 의미
RSI는 'AI가 AI를 발전시키는' 시대의 입구입니다. 잘 통제되면 발전 속도가 빨라지지만, 검증이 약하면 그럴듯하게 틀린 방향으로 폭주할 위험도 같이 커집니다.
실무자 관점에서 당장의 교훈은 분명합니다. AI가 스스로 만든 결과(코드·데이터·요약)를 그대로 믿지 말고, 사람이나 별도 검증 단계를 한 번 더 두는 습관입니다. 모델이 똑똑해질수록 '검증의 가치'는 오히려 커집니다.
참고: ICLR 2026 RSI Workshop · AI self-improvement 2026 (연구 정리)