近年來,黨中央,、國務院高度重視以大模型為代表的人工智能技術,,《2024年政府工作報告》中強調要積極推動人工智能在各行各業(yè)深度賦能,,培育新質生產(chǎn)力,促進產(chǎn)業(yè)數(shù)字化轉型和智能化升級,。為促進人工智能與醫(yī)療健康的跨界融合,,中國信息通信研究院在行業(yè)主管部門指導下,按照“標準先行”的工作路徑,,聯(lián)合產(chǎn)學研用醫(yī)各方,,共同搭建醫(yī)療健康行業(yè)大模型標準體系,已形成技術要求,、測試方法及成熟度評估三大系列,。
·技術要求系列:包含總體技術要求、應用技術要求,、合成服務治理總體要求,、安全能力總體要求四個方面。重點關注大模型的基礎設施,、數(shù)據(jù)處理,、安全治理等通用技術規(guī)范;同時聚焦醫(yī)療健康領域的特定需求,,如醫(yī)院測醫(yī)療服務,、患者側醫(yī)療服務、智慧醫(yī)保,、公共衛(wèi)生,、臨床科研、醫(yī)學教育,、健康管理,、傳統(tǒng)中醫(yī)等;
·測試方法系列:制定大模型性能評估和應用效果驗證的標準方法,;
·成熟度評估系列:研究面向不同用戶提供特定服務的醫(yī)療健康行業(yè)大模型成熟度模型架構,,包含咨詢、預防,、診斷,、治療、康復等場景,。
同時,,中國信通院依托系列標準,,為多家技術廠商提供醫(yī)療健康大模型的能力符合性驗證,,持續(xù)完善評價細則,,提升標準實用性和適用性,助力行業(yè)大模型規(guī)范化,、集約化發(fā)展,。
2024年6月起,中國信通院選取GPT4,、GPT-4O等國外通用大模型,,文心一言、通義千問,、混元和智譜清言ChatGLM等國內通用大模型,,靈醫(yī)Bot、夸克健康助手,、訊飛星火醫(yī)療大模型和華佗GPT II等醫(yī)療健康行業(yè)大模型展開效能評估,。通過構建測試數(shù)據(jù)集、開展符合性驗證和模擬實際應用場景,,邀請醫(yī)療健康,、人工智能領域十余位專家形成評估小組,對參測大模型的多輪問詢結果進行準確性,、完整性,、流暢性、可解釋性等維度的綜合評分,,考察大模型在多學科知識問答,、多形式語言理解、多場景文書生成,、多環(huán)節(jié)輔助診療,、多輪對話交互、多模態(tài)支持等六大方向的實際應用效能,,助力醫(yī)療健康行業(yè)大模型的規(guī)范化發(fā)展,,支持醫(yī)療機構選取可信大模型產(chǎn)品,協(xié)助技術廠商加快能力提升,。
結果顯示,,通用大模型在醫(yī)學知識廣度方面具有一定優(yōu)勢,醫(yī)療健康行業(yè)大模型在特定醫(yī)療任務上表現(xiàn)優(yōu)異,。
以訊飛星火醫(yī)療大模型為例,,在個人畫像、健康干預方案,、病歷文書生成及質控,、檢驗檢查報告解讀,、體檢報告單解讀、藥盒解讀等細分任務中表現(xiàn)均處于領先,,在健康常識,、疾病百科、用藥知識,、電子病歷結構化,、專業(yè)知識生活化、考試輔助智能化,、導醫(yī)導診便民化,、輔助首診及推薦檢驗檢查、輔助確診,、疾病輔助診斷,、用藥安全指導等方向上均展現(xiàn)高度專業(yè)性。
下一步,,中國信通院將繼續(xù)聯(lián)合醫(yī)療機構,、科研院所、技術廠商等各界力量,,結合動態(tài)效能評價工作經(jīng)驗,,持續(xù)推進醫(yī)療健康行業(yè)大模型成熟度系列標準研制,建立針對不同醫(yī)療任務的大模型成熟度評價細則,,確保標準貼合實際應用需求,,促進能力提升和應用落地。通過優(yōu)化評估數(shù)據(jù)集,、構建自動化測試平臺,,打造可信、互信的產(chǎn)業(yè)生態(tài),,樹立產(chǎn)業(yè)發(fā)展風向標,,加強人工智能在醫(yī)療健康領域創(chuàng)新應用,釋放數(shù)字健康經(jīng)濟新動能,。