麻豆文化传媒官方网站免费进入,亚洲色欲或者高潮影院

ＯｐｅｎＡＩ近日發(fā)布了一款開源基準測試工具，旨在衡量大型語言模型在醫(yī)療健康領(lǐng)域的性能和安全性。

該公司在周一的博客文章中表示，這個名為ＨｅａｌｔｈＢｅｎｃｈ的大型數(shù)據(jù)集超越了傳統(tǒng)的考試式提問，它基于醫(yī)學(xué)專家認為最重要的內(nèi)容，測試人工智能模型在真實醫(yī)療場景中的表現(xiàn)。

該公司在博文中寫道：＂通用人工智能（ＡＧＩ）的決定性影響之一是改善人類健康。如果開發(fā)和部署得當(dāng)，大型語言模型有潛力擴大健康信息的獲取途徑，支持臨床醫(yī)生提供高質(zhì)量的醫(yī)療服務(wù)，并幫助人們維護自身及其社區(qū)的健康。＂

公司高管在博文中表示：＂評估對于理解模型在醫(yī)療環(huán)境中的表現(xiàn)至關(guān)重要。學(xué)術(shù)界和業(yè)界雖已付出巨大努力，但許多現(xiàn)有評估未能反映真實場景，缺乏基于醫(yī)學(xué)專家意見的嚴格驗證，或者未能給最先進的模型留下改進空間。＂

該公司表示，該評估框架是與來自６０個國家的２６２名執(zhí)業(yè)醫(yī)師合作構(gòu)建的。

ＨｅａｌｔｈＢｅｎｃｈ內(nèi)置了５０００個真實的醫(yī)療對話，并根據(jù)醫(yī)生制定的評分標準對模型的回應(yīng)進行評分，評估其安全性、適當(dāng)性和準確性。

77411747366336684

該公司表示，ＨｅａｌｔｈＢｅｎｃｈ中的對話模擬了ＡＩ模型與個人用戶或臨床醫(yī)生之間的互動，這些對話通過合成生成和人工對抗測試產(chǎn)生。ＯｐｅｎＡＩ稱，這些對話＂旨在真實地模擬大型語言模型在現(xiàn)實世界中的使用情況：它們是多輪次的、多語種的，涵蓋了各種普通用戶和醫(yī)療服務(wù)提供者的角色，跨越了多個醫(yī)學(xué)專業(yè)和背景，并根據(jù)難度進行了篩選。＂

ＨｅａｌｔｈＢｅｎｃｈ評估了４８５６２項獨特的評分標準，涵蓋多個健康情境和行為維度，如準確性、指令遵循和溝通能力。

模型的回應(yīng)由一個基于模型的評分器進行評估，以判斷是否滿足每個評分標準?；跐M足的標準所獲總分，與可能獲得的最高分數(shù)進行比較，得到模型回應(yīng)的總體得分。

ＨｅａｌｔｈＢｅｎｃｈ的對話分為七個主題，例如緊急情況、處理不確定性或全球健康。每個主題都有其專屬的評分標準。

ＯｐｅｎＡＩ　健康人工智能團隊負責(zé)人Ｋａｒａｎ?。樱椋睿纾瑁幔煸冢蹋椋睿耄澹洌桑畹奶又斜硎荆龋澹幔欤簦瑁拢澹睿悖璧拈_發(fā)面向兩大受眾：一是ＡＩ研究界，旨在＂形成共同標準并激勵開發(fā)有益于人類的模型＂；二是醫(yī)療機構(gòu)，旨在＂提供高質(zhì)量證據(jù)，以更好地理解當(dāng)前和未來的用例及局限性。＂

ＯｐｅｎＡＩ表示，ＨｅａｌｔｈＢｅｎｃｈ的開發(fā)旨在遵循幾項核心原則來評估醫(yī)療領(lǐng)域的ＡＩ系統(tǒng)。首先，該公司稱，評分應(yīng)反映現(xiàn)實世界的影響。ＯｐｅｎＡＩ在博文中表示：＂這應(yīng)超越考題范圍，捕捉復(fù)雜的現(xiàn)實生活場景和工作流程，以反映個人和臨床醫(yī)生與模型互動的方式。＂

同時，評估還應(yīng)反映醫(yī)療專業(yè)人士的標準和優(yōu)先事項，為改進ＡＩ系統(tǒng)提供堅實的基礎(chǔ)。該公司指出：＂應(yīng)顯示出巨大的改進空間，從而激勵模型開發(fā)者持續(xù)提升性能。＂

斯坦福ＡＩ　研究與科學(xué)評估中心執(zhí)行主任Ｅｔｈａｎ　Ｇｏｈ表示，ＨｅａｌｔｈＢｅｎｃｈ是推動醫(yī)療　ＡＩ　性能評估邁向正確方向的一步。Ｇｏｈ在ＬｉｎｋｅｄＩｎ的帖子中提到，許多先前的基準（如ＭｅｄＱＡ，　ＭｕｌｔｉＭｅｄＱＡ，　ＭｅｄＭＣＱＡ，?。眨樱停蹋牛┮蕾囉谶x擇題，這些題目通常來自醫(yī)生資格考試。這些基準現(xiàn)已飽和，對于衡量ＡＩ模型改進的作用不大（即ＡＩ模型的得分已接近１００％）。ＨｅａｌｔｈＢｅｎｃｈ通過一個用于任務(wù)級評估的基準彌補了這一空白，涵蓋了患者和臨床醫(yī)生的使用場景。＂

Ｇｏｈ表示，許多行業(yè)參與者早已將其模型用于各種醫(yī)療保健應(yīng)用，但坦率地說，在對ＡＩ回答進行穩(wěn)健評估方面做得并不出色，因為他們急于部署一個可用的原型，而這在面向消費者或醫(yī)療服務(wù)提供者的使用場景中可能具有極高的風(fēng)險。

ＯｐｅｎＡＩ評估了自家模型以及來自谷歌、Ａｎｔｈｒｏｐｉｃ、Ｍｅｔａ　和　ｘＡＩ?。ǎ牵颍铮耄〉哪Ｐ汀？傮w而言，ＯｐｅｎＡＩ　的?。铮场∧Ｐ捅憩F(xiàn)最佳。但值得注意的是，也有行業(yè)人士警告稱，一家公司自行制定基準，并顯示其模型在該基準上表現(xiàn)最佳，這一做法存在風(fēng)險。如果不公開其模型及數(shù)據(jù)集以供公眾審查，那無異于同時扮演法官、陪審團和行刑者的角色。在像醫(yī)療這樣討論生死的敏感領(lǐng)域，這種程度的不透明是不可接受的，這種不透明性可能會掩蓋模型的弱點。

54901747366342543

ＯｐｅｎＡＩ在醫(yī)療健康領(lǐng)域動作頻頻，該公司正與賽諾菲和Ｆｏｒｍａｔｉｏｎ?。拢椋锖献?，構(gòu)建一款由ＡＩ驅(qū)動的工具，旨在通過加速臨床試驗招募來改進藥物研發(fā)。Ｉｏｄｉｎｅ?。樱铮妫簦鳎幔颍逡舱cＯｐｅｎＡＩ合作，將包括ＧＰＴ－４在內(nèi)的生成式ＡＩ和大型語言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外，Ｃｏｌｏｒ?。龋澹幔欤簦枰才cＯｐｅｎＡＩ合作開發(fā)了生成式ＡＩ工具，包括一款ＡＩ驅(qū)動的癌癥輔助診療應(yīng)用，雙方正合作測試計算機生成的癌癥患者個性化護理計劃。休斯頓德克薩斯大學(xué)健康科學(xué)中心　（ＵＴＨｅａｌｔｈ?。龋铮酰螅簦铮睿∫才cＯｐｅｎＡＩ合作，構(gòu)建和部署用于醫(yī)學(xué)培訓(xùn)和患者床旁的算法。

注：文章來源于網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系刪除

上一篇：四川出臺新政促進醫(yī)藥健康產(chǎn)業(yè)發(fā)展，支持口腔疾病防治創(chuàng)新

下一篇：fda內(nèi)部將于6月30日前全面部署生成式ai，加速審評流程

新聞欄目

相關(guān)推薦