HealthBench는 무엇인가요?

HealthBench는 AI의 건강 답변을 의료 전문가 관점에서 평가하는 체계로, 260명이 넘는 의사가 OpenAI와 함께 만들었습니다. 답변의 안전성, 명확성, 필요 시 의료진과의 후속 진료를 권하는지를 평가합니다.

성능이 얼마나 향상됐나요?

최근 몇 달간 OpenAI 프런티어 모델은 HealthBench에서 28% 향상됐으며, 이는 2024년 8월 GPT-4o와 GPT-3.5 Turbo 사이의 도약보다 큰 폭입니다.

ChatGPT Health는 어떤 기능인가요?

2026년 1월 출시된 ChatGPT Health는 Apple Health·MyFitnessPal 같은 의료 기록과 웰니스 앱을 연동해 검사 결과 설명, 진료 준비, 운동 루틴, 보험 비교를 돕습니다. 건강 대화에는 전용 암호화와 격리가 적용됩니다.

OpenAI, ChatGPT '건강 인텔리전스' 강화… HealthBench 28% 향상

OpenAI가 ChatGPT의 건강 답변 능력을 끌어올렸다고 2026년 6월 발표했다. 핵심은 의사 260명 이상이 참여해 만든 평가 기준 HealthBench에서 최신 모델 성능이 28% 향상됐다는 점으로, 이는 GPT-4o와 GPT-3.5 Turbo 사이의 도약보다 큰 폭이다. 의료는 안전이 곧 신뢰인 영역이라, 성능만큼 안전장치 설계가 함께 강조됐다.

28%라는 숫자를 어떻게 읽을까

OpenAI는 ChatGPT의 건강 관련 답변 정확도와 안전성을 개선했다고 밝혔다. 2026년 4월 공동창업자 그렉 브록먼이 공개한 HealthBench Professional은 증상 진단·치료 권고 같은 실제 임상 과제로 AI를 평가한다. 최근 몇 달간 OpenAI 프런티어 모델은 이 기준에서 28% 개선됐는데, 2024년 8월 GPT-4o와 GPT-3.5 Turbo 간 격차보다 큰 도약이다.

주목할 대목은 이 숫자가 세대를 건너뛰는 대형 업그레이드가 아니라 '최근 몇 달'의 누적치라는 점이다. 모델 아키텍처를 갈아엎지 않고도 건강이라는 특정 영역에서 이만한 폭이 나온다는 건, 성능 곡선이 범용 지능이 아니라 도메인 특화 튜닝 쪽으로 옮겨가고 있음을 시사한다.

채점표가 곧 제품 사양이다

HealthBench는 AI의 건강 답변을 의료 전문가 관점에서 채점하는 평가 체계다. 260명이 넘는 의사가 OpenAI와 함께 만들었다. 채점 항목은 답변의 안전성, 명확성, 그리고 필요할 때 의료진과의 후속 진료를 권하는지를 함께 본다. 단순 정답률이 아니라 '안전하게 안내하는가'를 평가한다는 뜻이다.

여기서 방식의 전환이 읽힌다. 과거 벤치마크는 정답을 맞혔는지를 물었다. HealthBench는 틀린 조언을 하지 않았는지, 모르면 사람에게 넘기는지를 묻는다. AI가 무엇을 아는가보다 무엇을 하지 않는가를 채점하는 설계이며, 고위험 영역에서 신뢰를 만드는 핵심 축이 여기에 있다.

기록 연동과 격리, 두 방향의 설계

2026년 1월 출시된 ChatGPT Health는 사용자의 의료 기록과 웰니스 앱을 연동한다. Apple Health, MyFitnessPal 등을 연결해 검사 결과 설명, 진료 준비, 운동 루틴, 보험 플랜 비교를 돕는다. 건강 대화에는 전용 암호화와 격리(isolation)가 적용돼, 일반 대화와 분리해 보호한다.

한국 시장과 이용자를 위한 시선

성능 향상에도 의료 조언의 책임은 사람에게 있다. OpenAI도 모델이 후속 진료를 권하도록 설계했다고 강조했는데, 이는 AI가 의사를 대체하지 않는다는 전제를 담은 것이다. 이용자에게 중요한 건 'AI 답변=확정 진단'이 아니라는 점이다. 건강 정보는 참고로 쓰고, 진단·처방은 전문가 확인이 원칙이다.

한국 맥락에서는 유보가 하나 더 붙는다. HealthBench에 참여한 의사 260명의 진료 관행과 한국 임상 지침이 늘 일치하지는 않으며, 보험 플랜 비교 같은 기능은 미국 제도를 전제로 한 것이다. 영어권 데이터로 다듬은 답변을 국내 이용자가 그대로 받아들이기 전에, 성능 수치와 실제 안전 사이의 간격을 의식하는 편이 낫다는 것이 ASAP의 관점이다. 안전이 신뢰인 영역일수록, 무엇을 어떻게 채점하는지가 성능 못지않게 중요하다는 신호를 이번 발표가 남겼다.

참고: OpenAI: Introducing ChatGPT Health · OpenAI: HealthBench · Healthcare Dive

OpenAI, ChatGPT '건강 인텔리전스' 강화… HealthBench 28% 향상

28%라는 숫자를 어떻게 읽을까

채점표가 곧 제품 사양이다

기록 연동과 격리, 두 방향의 설계

한국 시장과 이용자를 위한 시선

관련 글