對話翼方健數羅震:天下無難用的數據,如何讓“機器人醫生”更智能?
算力說
醫療領域被認為是對于隱私數據要求最高的場景,而在這個方向的數據若是共享,其效應將會巨大。醫療平臺集聚個人最私密的數據,共享是否意味著即失守?開放應用生態更成無本之木?改弦更張,嘗試用新一代智能數據技術替代傳統的共享方式以釋放數據價值,逐步成為發展共識。那么,新技術有哪些落地方式,又如何提升診療準確度?
8月25日,翼方健數 CEO 羅震 在SIGKDD·SDBD2020 第二屆智能數據和區塊鏈應用國際研討會上帶來《隱私安全計算下的數據和算法的互聯互通》的專題分享,談談怎樣為醫療信息系統裝上智能的“最強大腦”。
1
你所認知的醫療行業的數據問題,其實在行業具有普適性
羅震介紹說,翼方健數主要在醫療行業做隱私安全計算的生根和應用。而在行業深耕多年后,最大的體會是醫療行業中間遇到的數據安全、數據共享以及數據應用方面問題,并且具有普遍性,促使我們去做更為深入的思考。
我們身處由信息時代轉化到智能時代的變革中,兩個時代顯著的區別在于對數據的重視程度與認知方式。
信息時代我們更關注解決具體問題,當我們發現解決過程中產生的數據有很大的價值與應用空間,才逐漸開始使用。在當下的時代,更多的是我們擁有這樣的數據,可以解決什么問題,這是主次先后重要性的區別。我們認為智能時代會產生海量的數據,處理數據主角是智能模型機器,而必須有大量數據才能產生比較好的智能,對數據的處理方式產生根本性的轉變。
基于此,國家會提出數據是新的生產要素,并把數據和土地、資本、勞動力等同起來。但是數據作為生產要素,其實與很多傳統的生產要素有許多區別。
首先數據是信息時代的遺留,由于分布在不同信息系統里邊,自誕生便相互隔離,是非標準化、非結構化的,質量有高有低。
數據作為生產要素有非常獨特的經濟特征。其一是虛擬可再用的;其二是非競爭性的,如果我有一份數據共享給你,你就有一份一模一樣的數據;其三是產生數據需要高昂成本,但分享數據幾乎可以忽略成本。
數據的價值有外在性,當我們產生數據,很難確定數據價值幾何。此外還有數據的非經濟特征,在每個行業里邊都有隱私保護,合規數據安全等行業方面的規范,在醫療行業更加如此,因為我們接觸到的數據都是個人最隱私最保密的數據。
正是因為所有數據特點,恰恰是阻礙數據共享最核心的原因。從經濟的角度我花了很多的價錢,產生數據,而后分享給你,數據將失去我的保護,而你有一份同樣的財產。對你將來如何使用數據,我將完全失控,無法得知你可能會產生新的價值。

從另一角度,一旦原始數據流失并產生傷害,這些傷害也很難被安頓。所以我們認為數據在本質上不能被共享。共享的方式不是將原始數據拷貝給他人,而是應是試圖去共享數據的價值。
2
Alice與Bob誰更多金?不僅僅是“百萬富翁”
數據的時代特性引出我們所講的隱私安全技術,或者說隱私計算基本的理念。

舉例而言,有一家醫學統計公司,想做篩查效果及評估。如做完癌癥篩查后,想了解做過篩查的人后續是否有問題。涉及到醫學統計中經常會提及的兩個詞,一個叫靈敏度,一個叫特異性。
一般比較直觀的做法是在數據平臺找到所有做過篩查的人群,觀察后續發生的事情。通過原始數據和分析,最后得到評估結果。最大的問題在于如果醫療行業原始數據一旦離開數據平臺保護,將來會產生問題。而統計公司只想知道篩查手段的結果,即靈敏度與特異性。所以可以將計算放在安全的環境,計算完畢之后,只需拿走統計結果。不用看到原始數據,不用將數據導出,通過這種計算的方式,實現不分享原始數據,而是分享數據的價值。
實際上,隱私安全計算面臨較大的挑戰。首先隱私安全計算,囊括的范圍很廣泛。三個主流的安全計算方式。一個方式稱為多方安全計算或者同態加密,實際方法完全不同,但是信任假設是相同的。
假如沒有任何可以信任的第三方,如何做計算?第二個方式使用比較多的方式是聯邦學習。聯邦學習是解決模型訓練、模型推斷的問題,在機器學習方面來解決沒有信任的前提下,如何做聯合計算。
那么聯邦學習唯一的缺陷是指計算的方式僅僅是在機器學習的方式。如果我們有可以信任第三方,比如Alice、Bob信任第三人Charlie,他們如果將自己有多少錢告訴Charlie,Charlie就會立刻的告訴Alice、Bob你們倆誰錢更多,就可以通過安全多方計算的方式計算過程。
安全多方計算主要防備的是應用本身對平臺產生的威脅。如果說安全沙箱做得好,對系統本身產生的風險小,就可以非常安全將它算出來。
另一方面,第三方中間有特殊的硬件叫 稱之為TEE,Trusted Execution Environment,可信任執行環境。我們將安全沙箱計算放到TEE中算。此時可以解除對查理的信任,因為硬件可以保證哪怕Charlie是惡意的人,也沒有辦法看到算了Alice和Bob到底有多少錢。
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













