긴 문서일수록 AI가 더 지어낸다: 172억 토큰으로 본 환각 연구

컨텍스트가 길수록 AI의 환각이 가파르게 늘어납니다. 2026년 3월 공개된 논문 'How Much Do LLMs Hallucinate in Document Q&A'는 35개 오픈웨이트 모델을 172억 토큰으로 평가했습니다. 32K 토큰에서 최상위 모델도 5~7%를 지어냈고, 200K 토큰에서는 모든 모델이 10%를 넘겼습니다. 잘 찾는 능력과 지어내지 않는 능력은 별개라는 게 핵심입니다. ASAP은 이 결과를 1차 출처 기준으로 정리합니다.

200K 토큰에서 모든 모델이 10%를 넘었다

논문은 컨텍스트가 길수록 환각이 가파르게 는다고 밝혔습니다. 32K 토큰에서 최상위 모델의 조작률은 5~7%였지만, 128K에서 거의 3배로, 200K에서는 35개 모델 전부 10%를 넘겼습니다. 172억 토큰 규모의 실측입니다.

'잘 찾는 것'과 '안 지어내는 것'은 다르다

논문의 핵심 발견은 근거를 찾는 능력과 지어내지 않는 능력이 별개라는 점입니다. 사실을 잘 찾는 모델도 거짓을 만들어낼 수 있습니다. 두 능력을 따로 평가해야 한다는 뜻입니다.

온도(temperature)의 역설

온도 설정에도 역설이 있습니다. 온도 0.0이 약 60% 경우에서 정확도가 가장 높았지만, 일관성 붕괴는 온도 1.0보다 48배 자주 일어났습니다. 대부분의 모델에서는 높은 온도가 오히려 조작을 줄였습니다.

하드웨어와 무관했다

결과는 세 가지 하드웨어에서 일관됐습니다. 엔비디아 H200, AMD MI300X, 인텔 가우디 3에서 환각률이 비슷하게 나왔습니다. 환각을 줄이려고 특정 하드웨어를 고를 필요는 없다는 의미입니다.

의미: 긴 컨텍스트 RAG를 무조건 믿지 말라

논문은 긴 문서 질의응답을 무조건 믿으면 안 된다는 점을 수치로 보여줍니다. 컨텍스트를 길게 넣을수록 AI가 더 지어내므로, 핵심 근거만 짧게 넣는 편이 안전합니다. 검색 증강(RAG)에서 많이 넣기가 답이 아닙니다.

정리

'How Much Do LLMs Hallucinate in Document Q&A'는 긴 컨텍스트일수록 환각이 는다는 점을 172억 토큰으로 입증했습니다. 200K에서 모든 모델 10% 초과, 잘 찾는 것과 안 지어내는 것은 별개, 하드웨어 무관이 핵심입니다. 긴 문서 RAG는 핵심만 짧게 넣어야 합니다.

출처: 'How Much Do LLMs Hallucinate in Document Q&A Scenarios?'(arXiv 2603.08274, 2026년 3월 9일; JV Roig, 35개 오픈웨이트 모델, 172억 토큰, 32K에서 최상위 5~7% 조작, 200K에서 전 모델 10% 초과, 온도 0.0 정확도 최고이나 일관성 붕괴 48배, H200과 MI300X와 가우디3 일관) 기반 ASAP 정리.

긴 문서일수록 AI가 더 지어낸다: 172억 토큰으로 본 환각 연구

200K 토큰에서 모든 모델이 10%를 넘었다

'잘 찾는 것'과 '안 지어내는 것'은 다르다

온도(temperature)의 역설

하드웨어와 무관했다

의미: 긴 컨텍스트 RAG를 무조건 믿지 말라

정리

관련 글

AI·테크 이슈,가장 빠르게

AI·테크 이슈,
가장 빠르게