ASAPAi Soon As Possible · AI·테크 이슈를 가장 빠르게
Article

AI는 왜 긴 일에 약할까: '추론 ≠ 계획' 논문 딥다이브

AASAP
2026-06-18 · 2분 읽기

AI에게 복잡하고 긴 작업을 맡기면, 한 단계씩은 똑똑하게 풀면서도 전체적으로는 엉뚱한 방향으로 가버리는 경험이 있을 겁니다. 2026년 1월 발표된 논문 'Why Reasoning Fails to Plan'은 그 이유를 정면으로 분석합니다. 핵심 결론은 '추론(reasoning)과 계획(planning)은 다른 능력'이라는 것입니다. 단계별 추론은 짧은 호흡엔 강하지만 긴 호흡에선 근시안에 빠지며, 연구진은 이를 보완할 FLARE라는 방법을 제시합니다. 이 글에서는 무슨 논문인지, 왜 그런지, 어떻게 고치는지, 그리고 실무 교훈을 정리합니다.

추론과 계획의 차이 도식 - 단계별 추론이 짧은 호흡엔 강하지만 긴 계획에선 근시안적 탐욕으로 무너지는 원리와 FLARE 해법
추론과 계획의 차이 도식 - 단계별 추론이 짧은 호흡엔 강하지만 긴 계획에선 근시안적 탐욕으로 무너지는 원리와 FLARE 해법

무슨 논문인가

'Why Reasoning Fails to Plan'은 2026년 1월 29일 arXiv에 공개된 논문으로, LLM 에이전트의 장기 의사결정을 '계획' 관점에서 분석합니다. 부제 그대로 긴 호흡(long-horizon) 의사결정을 다룹니다.

핵심 주장은 명확합니다. 단계별로 잘 '생각'하는 능력과, 먼 미래까지 내다보고 '계획'하는 능력은 별개라는 것입니다. 즉 추론을 잘한다고 계획까지 잘하는 게 아닙니다.

문제: 짧은 건 잘, 긴 건 무너진다

LLM 에이전트는 짧은 구간의 단계별 추론에는 강합니다. 한 단계 한 단계의 판단은 그럴듯하고 종종 정답입니다. 문제는 그 단계들이 길게 이어질 때 발생합니다.

논문은 에이전트가 긴 계획 구간에서 일관된 행동을 유지하지 못하고 무너지는 현상을 지적합니다. 앞선 행동이 나중의 결과(지연된 보상·비용)를 고려해야 하는데, 단계별 추론은 그 먼 영향을 잘 못 본다는 것입니다.

왜 그런가: '단계별 추론 = 근시안적 탐욕'

논문이 짚는 근본 원인은 단계별 추론이 일종의 '탐욕적(greedy) 정책'을 만든다는 점입니다. 매 순간 그 자리에서 가장 좋아 보이는 선택을 하는데, 이게 짧은 호흡엔 충분하지만 긴 호흡엔 독이 됩니다.

문제는 초기의 근시안적 결정이 시간이 지나며 체계적으로 증폭되고, 되돌리기 어려워진다는 것입니다. 바둑에서 한 수 한 수는 최선인데 판 전체는 지는 것과 비슷합니다.

해법: FLARE (미리 내다보기)

연구진은 FLARE(Future-aware Lookahead with Reward Estimation)를 제안합니다. 이름처럼 '미래를 내다보는(lookahead)' 단계를 명시적으로 넣어, 지금의 선택이 나중에 어떤 결과를 낳을지 추정해 반영하는 최소 장치입니다.

효과는 인상적입니다. FLARE를 붙이면 여러 벤치마크에서 성능이 일관되게 올랐고, 작은 모델인 LLaMA-8B에 FLARE를 적용한 쪽이 표준 단계별 추론을 쓰는 GPT-4o를 앞섰습니다. '계획 장치'가 단순 모델 크기보다 중요할 수 있다는 신호입니다.

우리에게 의미

실무 교훈은 분명합니다. AI에게 긴 작업을 통째로 맡기면 '근시안'에 빠지기 쉬우니, 사람이 계획의 뼈대를 잡아 주는 게 좋습니다. 큰 목표를 단계로 쪼개고, 중간 점검(체크포인트)을 두고, "이 선택이 나중에 어떤 영향을 주는지 먼저 생각해" 같은 지시로 lookahead를 유도하는 것입니다.

핵심은 '추론 잘하는 모델 = 계획 잘하는 에이전트'가 아니라는 인식입니다. 긴 자동화를 설계할 때는 모델의 똑똑함에만 기대지 말고, 미리 내다보고 되돌아보는 구조를 함께 넣어야 합니다.


참고: arXiv 2601.22311 · alphaXiv 정리

← 전체 글 보기