OpenAI近日發(fā)布了一款開源基準測試工具,旨在衡量大型語言模型在醫(yī)療健康領(lǐng)域的性能和安全性。
該公司在周一的博客文章中表示,這個名為HealthBench的大型數(shù)據(jù)集超越了傳統(tǒng)的考試式提問,它基于醫(yī)學(xué)專家認為最重要的內(nèi)容,測試人工智能模型在真實醫(yī)療場景中的表現(xiàn)。
該公司在博文中寫道:"通用人工智能(AGI)的決定性影響之一是改善人類健康。如果開發(fā)和部署得當(dāng),大型語言模型有潛力擴大健康信息的獲取途徑,支持臨床醫(yī)生提供高質(zhì)量的醫(yī)療服務(wù),并幫助人們維護自身及其社區(qū)的健康。"
公司高管在博文中表示:"評估對于理解模型在醫(yī)療環(huán)境中的表現(xiàn)至關(guān)重要。學(xué)術(shù)界和業(yè)界雖已付出巨大努力,但許多現(xiàn)有評估未能反映真實場景,缺乏基于醫(yī)學(xué)專家意見的嚴格驗證,或者未能給最先進的模型留下改進空間。"
該公司表示,該評估框架是與來自60個國家的262名執(zhí)業(yè)醫(yī)師合作構(gòu)建的。
HealthBench內(nèi)置了5000個真實的醫(yī)療對話,并根據(jù)醫(yī)生制定的評分標準對模型的回應(yīng)進行評分,評估其安全性、適當(dāng)性和準確性。
該公司表示,HealthBench中的對話模擬了AI模型與個人用戶或臨床醫(yī)生之間的互動,這些對話通過合成生成和人工對抗測試產(chǎn)生。OpenAI稱,這些對話"旨在真實地模擬大型語言模型在現(xiàn)實世界中的使用情況:它們是多輪次的、多語種的,涵蓋了各種普通用戶和醫(yī)療服務(wù)提供者的角色,跨越了多個醫(yī)學(xué)專業(yè)和背景,并根據(jù)難度進行了篩選。"
HealthBench評估了48562項獨特的評分標準,涵蓋多個健康情境和行為維度,如準確性、指令遵循和溝通能力。
模型的回應(yīng)由一個基于模型的評分器進行評估,以判斷是否滿足每個評分標準?;跐M足的標準所獲總分,與可能獲得的最高分數(shù)進行比較,得到模型回應(yīng)的總體得分。
HealthBench的對話分為七個主題,例如緊急情況、處理不確定性或全球健康。每個主題都有其專屬的評分標準。
OpenAI 健康人工智能團隊負責(zé)人Karan?。樱椋睿纾瑁幔煸冢蹋椋睿耄澹洌桑畹奶又斜硎荆龋澹幔欤簦瑁拢澹睿悖璧拈_發(fā)面向兩大受眾:一是AI研究界,旨在"形成共同標準并激勵開發(fā)有益于人類的模型";二是醫(yī)療機構(gòu),旨在"提供高質(zhì)量證據(jù),以更好地理解當(dāng)前和未來的用例及局限性。"
OpenAI表示,HealthBench的開發(fā)旨在遵循幾項核心原則來評估醫(yī)療領(lǐng)域的AI系統(tǒng)。首先,該公司稱,評分應(yīng)反映現(xiàn)實世界的影響。OpenAI在博文中表示:"這應(yīng)超越考題范圍,捕捉復(fù)雜的現(xiàn)實生活場景和工作流程,以反映個人和臨床醫(yī)生與模型互動的方式。"
同時,評估還應(yīng)反映醫(yī)療專業(yè)人士的標準和優(yōu)先事項,為改進AI系統(tǒng)提供堅實的基礎(chǔ)。該公司指出:"應(yīng)顯示出巨大的改進空間,從而激勵模型開發(fā)者持續(xù)提升性能。"
斯坦福AI 研究與科學(xué)評估中心執(zhí)行主任Ethan Goh表示,HealthBench是推動醫(yī)療 AI 性能評估邁向正確方向的一步。Goh在LinkedIn的帖子中提到,許多先前的基準(如MedQA, MultiMedQA, MedMCQA,?。眨樱停蹋牛┮蕾囉谶x擇題,這些題目通常來自醫(yī)生資格考試。這些基準現(xiàn)已飽和,對于衡量AI模型改進的作用不大(即AI模型的得分已接近100%)。HealthBench通過一個用于任務(wù)級評估的基準彌補了這一空白,涵蓋了患者和臨床醫(yī)生的使用場景。"
Goh表示,許多行業(yè)參與者早已將其模型用于各種醫(yī)療保健應(yīng)用,但坦率地說,在對AI回答進行穩(wěn)健評估方面做得并不出色,因為他們急于部署一個可用的原型,而這在面向消費者或醫(yī)療服務(wù)提供者的使用場景中可能具有極高的風(fēng)險。
OpenAI評估了自家模型以及來自谷歌、Anthropic、Meta 和 xAI?。ǎ牵颍铮耄〉哪P汀?傮w而言,OpenAI 的?。铮场∧P捅憩F(xiàn)最佳。但值得注意的是,也有行業(yè)人士警告稱,一家公司自行制定基準,并顯示其模型在該基準上表現(xiàn)最佳,這一做法存在風(fēng)險。如果不公開其模型及數(shù)據(jù)集以供公眾審查,那無異于同時扮演法官、陪審團和行刑者的角色。在像醫(yī)療這樣討論生死的敏感領(lǐng)域,這種程度的不透明是不可接受的,這種不透明性可能會掩蓋模型的弱點。
OpenAI在醫(yī)療健康領(lǐng)域動作頻頻,該公司正與賽諾菲和Formation?。拢椋锖献?,構(gòu)建一款由AI驅(qū)動的工具,旨在通過加速臨床試驗招募來改進藥物研發(fā)。Iodine?。樱铮妫簦鳎幔颍逡舱cOpenAI合作,將包括GPT-4在內(nèi)的生成式AI和大型語言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外,Color?。龋澹幔欤簦枰才cOpenAI合作開發(fā)了生成式AI工具,包括一款AI驅(qū)動的癌癥輔助診療應(yīng)用,雙方正合作測試計算機生成的癌癥患者個性化護理計劃。休斯頓德克薩斯大學(xué)健康科學(xué)中心 (UTHealth?。龋铮酰螅簦铮睿∫才cOpenAI合作,構(gòu)建和部署用于醫(yī)學(xué)培訓(xùn)和患者床旁的算法。
注:文章來源于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系刪除