HealthBench 是什麼？HealthBench如何運作？

作者： Martha Grizzard

2025-06-16

4.2

★

★

★

★

★

★

★

★

★

★

290 人評分

在2025年5月，OpenAI 推出了HealthBench，這是一個全面的評估標準，用來測試大型語言模型（LLM）在真實醫療環境中的表現。這項工具在全球數百位醫生的參與下開發，不僅是一個技術指標，更可能成為評估人工智慧在患者護理、醫學準確性以及醫生與AI 協作方面的新標準。

什麼是HealthBench？它是如何運作的？

HealthBench 是一個測試系統，用於評估AI 模型在5,000 個真實醫療對話中的回答表現。這些模擬情境涵蓋緊急情況和一般健康諮詢，每個對話都根據由60 個國家、260 多位醫生製定的評分標準進行評估。評分標準包括臨床準確性、溝通能力以及對具體情境的理解，總共超過48,000 項評估點。

HealthBench 與以往評估方式有何不同？

與傳統醫學考試式的評估不同，HealthBench 更貼近現實生活中的複雜情況。它包含一些實際主題類別，例如急救護理、全球健康和診斷不確定性。這種方式能更清楚展現AI 在真實醫病互動中的表現。更重要的是，HealthBench 是開源的，研究人員可以在此基礎上繼續改進和擴展。

哪些AI 模型在HealthBench 中表現最佳？

目前OpenAI 的o3 推理模型位居榜首，得分為60%。Elon Musk 的Grok 模型得分為54%，而Google 的Gemini 2.5 Pro 為52%。值得注意的是，一些較小的模型（如GPT-4.1 nano）也有亮眼表現，甚至超過了早期一些較昂貴的模型。評估也顯示，有時AI 的表現比單獨醫生還好——但當醫生使用AI 工具時，他們自己的表現也明顯提高。

HealthBench 在現實世界中有何意義？

HealthBench 的目標是推動以醫生價值為核心的AI 開發方向。它不僅關注答案是否“正確”，更注重是否體現出良好的臨床判斷力。隨著越來越多的醫療機構開始採用AI 工具，這一點顯得尤為重要。這個標準系統以公開透明、嚴格評分為特點，並有望協助制定更安全有效的醫院AI 應用政策和工具。

總結：

HealthBench 是對快速發展的醫療AI 的及時回應。透過醫師專業知識和真實情境作為基礎，它提供了一個可靠、負責任的評估框架，確保AI 工具能勝任高風險的醫療環境。隨著開源合作和現實適用性的推進，HealthBench 很可能成為評估所有醫療類AI 的行業標準。

希望這篇文章能為您了解什麼是HealthBench，以及它如何運作提供有價值的資訊。

相關文章

什麼是Polymarket USD？如何使用Polymarket USD？
Polymarket USD 是一種穩定幣，旨在取代 USDC.e 作為平台的抵押品。每一個 Polymarket USD 都由平台國庫中持有的 USDC 全額支持。
Jerry McNeill
2026-04-08
什麼是Aethir Claw？它如何簡化AI代理的部署？
Aethir Claw 是一個 AI 代理託管平台，允許用戶以最少的設置啟動自主 AI 代理。
Hallie Gill
2026-03-30
什麼是AI代幣？誰控制代幣命名權？
AI令牌是AI模型處理數據的基本單位，代表用於輸入和輸出的文本塊。
Martha Grizzard
2026-03-27

最新文章

基礎知識

實用教程

幣種百科

投資乾貨

什麼是跨鏈互操作性？它是如何運作的？
跨鏈互操作性是指獨立的區塊鏈網絡在無需中央中介的情況下，安全交換資產、數據和功能指令的技術能力。
Jerry McNeill
2026-07-08
什麼是鍵盤記錄器？它們如何耗盡你的加密貨幣？
鍵盤側錄器是一種特殊形式的間諜軟體，旨在系統性地記錄受感染裝置上按下的每一個按鍵。
Wayne Ingram
2026-07-06
什麼是加密貨幣中的最大可提取價值（MEV）？我們如何避免MEV？
最大可提取價值（MEV），前稱礦工可提取價值，是指除了標準區塊獎勵和燃料費之外，通過在區塊中包含、排除或重新排序交易，可以從區塊生產中提取的最大價值。
Jerry McNeill
2026-07-01
加密貨幣交易機器人：它們是什麼以及如何運作？
加密貨幣交易機器人是一種軟體應用程式，旨在自動化買賣數位資產的過程，作為用戶與加密貨幣交易所之間的介面。
Cornell Rachel
2026-06-26
什麼是應用鏈？特定應用區塊鏈如何運作？
應用鏈是為支援單一應用程式而構建的區塊鏈，提供專用資源，而不是與其他去中心化應用程式競爭區塊空間。
Jerry McNeill
2026-06-25

內容

BTC(BTC)

$0

--(24小時漲跌)

現貨交易合約交易

頭條資訊

漲幅榜

DeriveDRV	$0.1488 +272.00%
AkedoAKE	$0.000555 +188.77%
FC Porto Fan TokenPORTO	$0.6090 +54.96%
DODODODO	$0.0251 +23.64%
Alpine F1 Team Fan TokenALPINE	$0.3570 +18.60%

熱門幣種

SK 海力士美国存托凭证SKHY	$183.390 +12.34%
SolanaSOL	$77.4900 +3.10%
以太坊ETH	$1,870.58 +4.92%
大零币ZEC	$552.640 +9.14%
Block StreetBSB	$0.1251 -5.27%

發現新幣

DeriveDRV	$0.1488 +272.00%
SK海力士SKHYB	$183.460 +12.15%
Cash CatCASHCAT	$0.1240 -30.59%
CerebrasCBRSB	$206.100 -0.01%
Invesco QQQ TrustQQQB	$725.430 +1.44%

最新資訊