AI如何更懂醫(yī)?看騰訊天衍實(shí)驗(yàn)室智能醫(yī)療診斷技術(shù)創(chuàng)新
近年來(lái),在互聯(lián)網(wǎng)技術(shù)和政策、疫情等大環(huán)境的推動(dòng)下,在線問(wèn)診需求正高速增長(zhǎng),自然語(yǔ)言處理(NLP)技術(shù)在該領(lǐng)域的研究成果和應(yīng)用落地也越來(lái)越多。雖然,智能問(wèn)診已經(jīng)能夠?qū)崿F(xiàn)預(yù)診斷,但很多時(shí)候系統(tǒng)給出的診斷結(jié)果與現(xiàn)實(shí)情況大相徑庭。舉例來(lái)說(shuō),當(dāng)我們能準(zhǔn)確地給出“體溫38.5度、有點(diǎn)發(fā)熱、四肢無(wú)力”等癥狀時(shí),系統(tǒng)會(huì)比較容易根據(jù)提供的信息進(jìn)行詢問(wèn),給出如感冒、病毒感染等相對(duì)精準(zhǔn)基礎(chǔ)診斷;但如果給出諸如“疲勞”,甚至“累”“沒(méi)勁”“胸痛”等含糊不清的主訴,智能診斷系統(tǒng)可能就無(wú)能為力了。
這是因?yàn)椋壳坝?jì)算機(jī)在文本理解的精度和深度上和人類仍然有很大的差距,特別是在醫(yī)學(xué)領(lǐng)域,不僅要求計(jì)算機(jī)學(xué)會(huì)龐大的專業(yè)術(shù)語(yǔ),形成知識(shí)圖譜;更要能讀懂沒(méi)有專業(yè)知識(shí)的患者對(duì)于癥狀的模糊主訴,并將其與專業(yè)術(shù)語(yǔ)做關(guān)聯(lián)。
在此過(guò)程中,研究人員除了要給算法“投喂”龐大的專業(yè)語(yǔ)料和日常知識(shí),提升算法能力,加強(qiáng)AI對(duì)真實(shí)世界的理解,還需要用更好的策略,選擇合適的模型,優(yōu)化醫(yī)療NLP領(lǐng)域目前面臨的問(wèn)題,而這也是第二十屆中國(guó)計(jì)算語(yǔ)言學(xué)大會(huì)(下稱CCL2021)智能醫(yī)療對(duì)話診療評(píng)測(cè)——“智能化醫(yī)療診斷賽道”要解決的主要難點(diǎn)。
在此賽道中,騰訊天衍實(shí)驗(yàn)室團(tuán)隊(duì)提交的方案憑借較高的疾病預(yù)測(cè)準(zhǔn)確率和癥狀召回率,成功獲得該賽道第一名,下面我們來(lái)看看這套方案是如何進(jìn)行算法思考和模型選擇的。

任務(wù)難點(diǎn):讓算法迅速讀懂“患者”
“智能化醫(yī)療診斷”賽道的任務(wù)是:需要選手開(kāi)發(fā)一個(gè)模擬實(shí)際問(wèn)診過(guò)程的可交互程序,用程序與擁有超過(guò)2000組醫(yī)患對(duì)話樣本的病人模擬器“過(guò)招”:首先,要與主辦方提供的baseline模型交手,判斷出“患者”的初始癥狀;然后,還要根據(jù)這些信息,輸出能夠進(jìn)一步獲取有效信息的問(wèn)題,對(duì)“患者” 進(jìn)行接下來(lái)的癥狀詢問(wèn);最終,在不超過(guò)11次的交互過(guò)程中,識(shí)別出“患者”的疾病和癥狀。比賽結(jié)果也是以診斷準(zhǔn)確率和癥狀召回率來(lái)確定。
其中的難點(diǎn)是,2000組的對(duì)話樣本,每個(gè)都包含著大量數(shù)據(jù)信息:疾病類別、病人自訴文本、直接信息(病人自訴中明確提及的實(shí)體信息、癥狀),甚至隱藏信息(需要結(jié)合整段醫(yī)患對(duì)話得到實(shí)體及標(biāo)簽,判斷患者是否已經(jīng)有該癥狀)。并且,與現(xiàn)實(shí)世界病人一樣,機(jī)器“患者”不會(huì)一次性把癥狀表述清楚,比如出現(xiàn)一種癥狀多種描述等主訴表達(dá)。
選手開(kāi)發(fā)的算法和對(duì)應(yīng)算法選擇的模型,不僅要能“讀懂”被“模糊描述”的癥狀,并迅速將癥狀分類;還要根據(jù)當(dāng)前詢問(wèn)到的病人信息,準(zhǔn)確判斷出“患者”還可能具備什么癥狀,以便在有限的問(wèn)診交互環(huán)節(jié)中,增加“患者”有效信息輸出,從而最大可能提升疾病診斷準(zhǔn)確率以及癥狀召回率。
因此,該任務(wù)不僅考驗(yàn)算法能力,更同時(shí)考驗(yàn)算法和模型的搭配策略,以提升程序問(wèn)診的準(zhǔn)確性和效率。
方案對(duì)策:更高效的算法+更合適的模型 提升推理速度
為了讓AI更加理解“患者”信息,騰訊天衍實(shí)驗(yàn)室利用搜索、問(wèn)答、預(yù)訓(xùn)練、分類等多項(xiàng)NLP、機(jī)器學(xué)習(xí)技術(shù),進(jìn)行程序開(kāi)發(fā),整體方案分為癥狀問(wèn)詢、疾病預(yù)測(cè)兩大版塊,每個(gè)版塊都采用相同模型預(yù)測(cè)方案,同時(shí),每個(gè)版塊細(xì)分為三個(gè)部分:基于檢索查詢歷史病例、基于自然語(yǔ)言的癥狀/疾病預(yù)測(cè)、基于癥狀的癥狀/疾病預(yù)測(cè)(如圖所示)。這三個(gè)部分在同一個(gè)交互周期內(nèi)會(huì)同時(shí)運(yùn)行,并通過(guò)加權(quán)算法進(jìn)行“校準(zhǔn)”,來(lái)得到需要繼續(xù)問(wèn)詢的癥狀或者輸出診斷的疾病。

癥狀問(wèn)詢預(yù)測(cè)框架圖
基于檢索查詢歷史病例部分,利用了精準(zhǔn)搜索、模糊搜索,以及貝葉斯推理等技術(shù),用來(lái)查找算法數(shù)據(jù)庫(kù)中的相似病例,這樣做的好處是,不僅能將主訴癥狀的模糊表述和精準(zhǔn)表述相結(jié)合,以拓寬對(duì)于主訴癥狀和疾病的檢索范圍,還能更高效地對(duì)癥狀進(jìn)行預(yù)測(cè)。
基于自然語(yǔ)言的疾病預(yù)測(cè),是將癥狀列表轉(zhuǎn)化為自然語(yǔ)言后,利用預(yù)訓(xùn)練語(yǔ)言模型預(yù)測(cè)查詢癥狀概率分布。值得注意的是,此部分選手們采用的模型是天衍實(shí)驗(yàn)室自有的大規(guī)模醫(yī)療預(yù)訓(xùn)練語(yǔ)言模型MedBERT,它是基于大規(guī)模的醫(yī)療在線文本由Robert繼續(xù)訓(xùn)練得到的,不僅能更好適配醫(yī)療領(lǐng)域內(nèi)的語(yǔ)言學(xué)習(xí),還在多項(xiàng)醫(yī)療標(biāo)準(zhǔn)數(shù)據(jù)集上取得了SOTA。相比通用預(yù)訓(xùn)練模型來(lái)說(shuō),MedBERT更能勝任醫(yī)療相關(guān)的任務(wù)執(zhí)行。
在癥狀/疾病的預(yù)測(cè)部分,方案采用了在多項(xiàng)賽事中被驗(yàn)證、分類效果表現(xiàn)優(yōu)異的分類器——xgboost模型,其優(yōu)勢(shì)是使學(xué)習(xí)出來(lái)的模型更加簡(jiǎn)單,防止過(guò)擬合,因此,進(jìn)一步提升了算法運(yùn)行效率。

疾病預(yù)測(cè)框架圖
多策略融合召回預(yù)測(cè)的方式,不僅將檢索、自然語(yǔ)言疾病預(yù)測(cè)、癥狀疾病預(yù)測(cè)三種模型優(yōu)勢(shì)進(jìn)行互補(bǔ),實(shí)現(xiàn)了更高的準(zhǔn)確率和癥狀召回率,同時(shí),在癥狀召回上,還能鼓勵(lì)更多輪的癥狀問(wèn)詢,并做良好的超參數(shù)配置調(diào)優(yōu),從而獲得更高的癥狀召回率。正因如此,在最終評(píng)測(cè)中,天衍實(shí)驗(yàn)室在疾病預(yù)測(cè)準(zhǔn)確率和癥狀召回率上,均獲得了總分第一的成績(jī),甚至,在癥狀召回率上,還超出其他團(tuán)隊(duì)方案10%以上。
這一成果的獲得,不僅表明天衍實(shí)驗(yàn)室在算法能力和模型具備相對(duì)優(yōu)勢(shì),同時(shí),這也是天衍實(shí)驗(yàn)室在醫(yī)療健康領(lǐng)域AI算法研究和應(yīng)用落地深耕多年的實(shí)力體現(xiàn)。
騰訊天衍實(shí)驗(yàn)室一直專注于醫(yī)療健康領(lǐng)域NLP研究,其成果已經(jīng)在騰訊互聯(lián)網(wǎng)醫(yī)院中的導(dǎo)輔診、合理用藥、健康助手等業(yè)務(wù)版塊成功落地。同時(shí),天衍實(shí)驗(yàn)室還期望在行業(yè)層面推動(dòng)整個(gè)NLP的創(chuàng)新研究:如,在深度學(xué)習(xí)頂會(huì)ICLR 2021上舉辦MLPCP挑戰(zhàn)賽(醫(yī)療對(duì)話生成與自動(dòng)診斷國(guó)際挑戰(zhàn)賽),以推動(dòng)醫(yī)療咨詢對(duì)話系統(tǒng)和預(yù)測(cè)患者可能的疾病類型等方面的創(chuàng)新突破;攜手CCKS 2021(全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì))和中山大學(xué)舉辦蘊(yùn)含實(shí)體的中文醫(yī)療對(duì)話生成評(píng)測(cè),以助力自然語(yǔ)言基礎(chǔ)、語(yǔ)言理解、信息抽取、知識(shí)圖譜構(gòu)建等領(lǐng)域的研究創(chuàng)新和算法能力提升……未來(lái),天衍實(shí)驗(yàn)室仍將持續(xù)扎根醫(yī)療健康領(lǐng)域,持續(xù)探索和推動(dòng)NLP領(lǐng)域?qū)W術(shù)科研與應(yīng)用方向更多價(jià)值落地。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

11個(gè)醫(yī)療器械被注銷,2026年6項(xiàng)醫(yī)械監(jiān)管重點(diǎn)明確
-

7款進(jìn)口醫(yī)械主動(dòng)召回,10款創(chuàng)新醫(yī)療器械擬入特別審查
-

AI賦能精準(zhǔn)醫(yī)療!1月22日行業(yè)專家線上開(kāi)講!
-

骨科植入類耗材分類與通用名迎統(tǒng)一規(guī)范
-

CMDE連發(fā)兩則醫(yī)械審批公示,涉及創(chuàng)新產(chǎn)品、臨床急需品類
-

2025年12月批準(zhǔn)注冊(cè)388個(gè)醫(yī)療器械產(chǎn)品
-

ChatZOC,藏在口袋里的「眼科醫(yī)生」
-

金百澤科技亮相中國(guó)國(guó)際醫(yī)療器械博覽會(huì) | 盡顯醫(yī)療領(lǐng)域硬實(shí)力
最新活動(dòng)更多
-
6月25日立即預(yù)約>> OFweek 2026中國(guó)高端醫(yī)療器械產(chǎn)業(yè)關(guān)鍵技術(shù)系列在線會(huì)議-醫(yī)療電子及先進(jìn)醫(yī)用材料關(guān)鍵技術(shù)專場(chǎng)
-
精彩回顧立即查看>> OFweek 2026智慧醫(yī)院創(chuàng)新發(fā)展大會(huì)暨醫(yī)療機(jī)器人創(chuàng)新發(fā)展峰會(huì)
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 深圳“OFweek 2026醫(yī)療機(jī)器人創(chuàng)新發(fā)展峰會(huì)“
-
精彩回顧立即查看>> OFweek2026智慧醫(yī)院創(chuàng)新發(fā)展大會(huì)
-
精彩回顧立即查看>> OFweek2026醫(yī)療器械技術(shù)系列在線會(huì)議-AI精準(zhǔn)醫(yī)療專場(chǎng)
- 1 利潤(rùn)“失血”!魚躍醫(yī)療,重押這一賽道!
- 2 “現(xiàn)象級(jí)”基石陣容,劑泰科技給AI制藥再添一把火
- 3 依沃西全球III期未達(dá)統(tǒng)計(jì)閾值,康方生物出海首遇硬坎
- 4 榮昌、石藥、恒瑞們最好的年份,美國(guó)開(kāi)始備案了
- 5 國(guó)產(chǎn)首款小型化集成型質(zhì)子治療系統(tǒng)獲批!
- 6 2026肝癌流行病學(xué)趨勢(shì)報(bào)告:全球新發(fā)86.5萬(wàn)例,靶免聯(lián)合治療成主流
- 7 聯(lián)影,營(yíng)收138億,扣非凈利大增75%,腦機(jī)接口迎突破!
- 8 3.4億融資!螞蟻、美團(tuán)重倉(cāng)“全球爆款外骨骼機(jī)器人”
- 9 OFweek產(chǎn)業(yè)研究中心李維維:2026年醫(yī)療機(jī)器人行業(yè)發(fā)展趨勢(shì)預(yù)測(cè)
- 10 融資3.8億!高瓴,投了哈佛華人創(chuàng)辦的腦機(jī)接口!
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享

