ASAPAi Soon As Possible · AI·테크 이슈를 가장 빠르게
Article

OpenAI, ChatGPT '건강 인텔리전스' 강화… HealthBench 28% 향상

AASAP
2026-06-19 · 2분 읽기

OpenAI가 ChatGPT의 건강 답변 능력을 끌어올렸다고 2026년 6월 발표했습니다. 핵심은 의사 260명 이상이 참여해 만든 평가 기준 HealthBench에서 최신 모델 성능이 28% 향상됐다는 점으로, 이는 GPT-4o와 GPT-3.5 Turbo 사이의 도약보다 큰 폭입니다. 의료는 안전이 곧 신뢰인 영역이라, 성능만큼 안전장치 설계가 함께 강조됐습니다.

무엇이 달라졌나

OpenAI는 ChatGPT의 건강 관련 답변 정확도와 안전성을 개선했다고 밝혔습니다. 2026년 4월 공동창업자 그렉 브록먼이 공개한 HealthBench Professional은 증상 진단·치료 권고 같은 실제 임상 과제로 AI를 평가합니다.

성능 향상 폭이 큽니다. 최근 몇 달간 OpenAI 프런티어 모델은 HealthBench에서 28% 개선됐는데, 이는 2024년 8월 GPT-4o와 GPT-3.5 Turbo 간 격차보다 큰 도약입니다.

HealthBench는 무엇인가

HealthBench는 AI의 건강 답변을 의료 전문가 관점에서 채점하는 평가 체계입니다. 260명이 넘는 의사가 OpenAI와 함께 만들었습니다.

채점 항목이 핵심입니다. 답변의 안전성, 명확성, 그리고 필요할 때 의료진과의 후속 진료를 권하는지를 함께 평가합니다. 단순 정답률이 아니라 '안전하게 안내하는가'를 본다는 뜻입니다.

ChatGPT Health와의 연결

2026년 1월 출시된 ChatGPT Health는 사용자의 의료 기록과 웰니스 앱을 연동합니다. Apple Health, MyFitnessPal 등을 연결해 검사 결과 설명, 진료 준비, 운동 루틴, 보험 플랜 비교를 돕습니다.

보안은 별도로 강화됐습니다. 건강 대화에는 전용 암호화와 격리(isolation)가 적용돼, 일반 대화와 분리해 보호합니다.

한계와 주의

성능 향상에도 의료 조언의 책임은 사람에게 있습니다. OpenAI도 모델이 후속 진료를 권하도록 설계했다고 강조했는데, 이는 AI가 의사를 대체하지 않는다는 전제를 담은 것입니다.

이용자에게 중요한 건 'AI 답변=확정 진단'이 아니라는 점입니다. 건강 정보는 참고로 쓰고, 진단·처방은 전문가 확인이 원칙입니다.

우리에게 의미

이 발표는 AI의 다음 격전지가 '평가 기준'임을 보여줍니다. 의사 260명이 만든 HealthBench처럼, 신뢰가 중요한 영역일수록 무엇을 어떻게 채점하는지가 성능 못지않게 중요해집니다.

의료·법률·금융 같은 고위험 분야에서 AI를 쓸 때의 교훈도 같습니다. 출처와 한계를 분명히 하고, 최종 판단은 사람이 쥐는 구조가 신뢰를 만듭니다.


참고: OpenAI — Introducing ChatGPT Health · OpenAI — HealthBench · Healthcare Dive

← 전체 글 보기