在2025年5月,OpenAI 推出了HealthBench,这是一个全面的评估标准,用来测试大型语言模型(LLM)在真实医疗环境中的表现。这一工具在全球数百位医生的参与下开发,不仅是一个技术指标,更可能成为评估人工智能在病患护理、医学准确性以及医生与AI 协作方面的新标准。
什么是HealthBench?它是如何运作的?
HealthBench 是一个测试系统,用于评估AI 模型在5,000 个真实医疗对话中的回答表现。这些模拟情境涵盖紧急情况和普通健康咨询,每一个对话都根据由60 个国家、260 多位医生制定的评分标准进行评估。评分标准包括临床准确性、沟通能力以及对具体情境的理解,总共超过48,000 项评估点。
HealthBench 与以往评估方式有何不同?
与传统医学考试式的评估不同,HealthBench 更贴近现实生活中的复杂情况。它包含一些实际主题类别,比如急救护理、全球健康和诊断不确定性。这种方式能更清楚地展现AI 在真实医患互动中的表现。更重要的是,HealthBench 是开源的,研究人员可以在此基础上继续改进和扩展。
哪些AI 模型在HealthBench 中表现最好?
目前OpenAI 的o3 推理模型位居榜首,得分为60%。Elon Musk 的Grok 模型得分为54%,而Google 的Gemini 2.5 Pro 为52%。值得注意的是,一些较小的模型(比如GPT-4.1 nano)也有亮眼表现,甚至超过了早期一些更昂贵的模型。评估还显示,有时AI 的表现比单独医生还好——但当医生借助AI 工具时,他们自己的表现也明显提高。
HealthBench 在现实世界中有何意义?
HealthBench 的目标是推动以医生价值为核心的AI 开发方向。它不仅关注答案是否“正确”,更注重是否体现出良好的临床判断力。随着越来越多的医疗机构开始采用AI 工具,这一点显得尤其重要。这个标准系统以公开透明、严格评分为特点,有望帮助制定更安全有效的医院AI 应用政策和工具。
总结:
HealthBench 是对快速发展的医疗AI 的及时回应。通过医生专业知识和真实情境作为基础,它提供了一个可靠、负责任的评估框架,确保AI 工具能胜任高风险的医疗环境。随着开源合作和现实适用性的推进,HealthBench 很可能成为评估所有医疗类AI 的行业标准。
希望这篇文章能为您了解什么是HealthBench,以及它如何运作提供有价值的信息。






















