在2025年5月,OpenAI 推出了HealthBench,這是一個全面的評估標準,用來測試大型語言模型(LLM)在真實醫療環境中的表現。這項工具在全球數百位醫生的參與下開發,不僅是一個技術指標,更可能成為評估人工智慧在患者護理、醫學準確性以及醫生與AI 協作方面的新標準。
什麼是HealthBench?它是如何運作的?
HealthBench 是一個測試系統,用於評估AI 模型在5,000 個真實醫療對話中的回答表現。這些模擬情境涵蓋緊急情況和一般健康諮詢,每個對話都根據由60 個國家、260 多位醫生製定的評分標準進行評估。評分標準包括臨床準確性、溝通能力以及對具體情境的理解,總共超過48,000 項評估點。
HealthBench 與以往評估方式有何不同?
與傳統醫學考試式的評估不同,HealthBench 更貼近現實生活中的複雜情況。它包含一些實際主題類別,例如急救護理、全球健康和診斷不確定性。這種方式能更清楚展現AI 在真實醫病互動中的表現。更重要的是,HealthBench 是開源的,研究人員可以在此基礎上繼續改進和擴展。
哪些AI 模型在HealthBench 中表現最佳?
目前OpenAI 的o3 推理模型位居榜首,得分為60%。Elon Musk 的Grok 模型得分為54%,而Google 的Gemini 2.5 Pro 為52%。值得注意的是,一些較小的模型(如GPT-4.1 nano)也有亮眼表現,甚至超過了早期一些較昂貴的模型。評估也顯示,有時AI 的表現比單獨醫生還好——但當醫生使用AI 工具時,他們自己的表現也明顯提高。
HealthBench 在現實世界中有何意義?
HealthBench 的目標是推動以醫生價值為核心的AI 開發方向。它不僅關注答案是否“正確”,更注重是否體現出良好的臨床判斷力。隨著越來越多的醫療機構開始採用AI 工具,這一點顯得尤為重要。這個標準系統以公開透明、嚴格評分為特點,並有望協助制定更安全有效的醫院AI 應用政策和工具。
總結:
HealthBench 是對快速發展的醫療AI 的及時回應。透過醫師專業知識和真實情境作為基礎,它提供了一個可靠、負責任的評估框架,確保AI 工具能勝任高風險的醫療環境。隨著開源合作和現實適用性的推進,HealthBench 很可能成為評估所有醫療類AI 的行業標準。
希望這篇文章能為您了解什麼是HealthBench,以及它如何運作提供有價值的資訊。




















