AI基礎設施革命：關于數據隱私保護和價值挖掘的實踐思考

2020-06-10 11:28

這里面一個有意思的地方在于，有一些數據并不是嚴格意義上的被公開數據，或者說只希望在某個特定范圍內被公開。舉例來說社區的運營者可能只希望社區的用戶生成內容（UGC）在社區內進行公開，而不希望流傳到互聯網上。典型的這類意愿的表述形式有類似于Robots exclusion standard，主要用于向爬蟲聲明網站中哪些內容不能被讀取。

除此之外公開數據還有可能僅僅是可以被讀取而不能希望被存儲的，舉例來說比如社交網站中的朋友清單。朋友清單被存儲和對比之后就可以得到諸如”哪些朋友取消了對我的關注“這樣的信息，這里面也存在可能侵害了別人的個人隱私的問題。一般為了防范這樣的越界爬取行為，公司可能會有針對性的組織自己的反扒竊（anti－scraping）系統，在協議范疇之外對數據的控制力賦予提供保障。

綜上所述我們可以看到，賦予數據的控制力長久以來都面臨許多挑戰。且除了第一方數據外，沿著數據鏈條向下走，這種挑戰會逐漸增加。這種現象很大程度上源于數據作為一種抽象存在，不同于普通物品的可以被復制，而被復制的數據的控制力將會被重新的定義和賦予。

因此在數據流通的過程中將數據的各種屬性分開管理和授權，盡量減少數據復制的出現，可以很大程度上降低在整個鏈條上管理控制力的成本。需要研究的不是如何把數據的鏈條切段，而是如何在鏈條的各個環節上更好的完成數據控制力的精細化管理。

新的產業機會 — 數據流通鏈條中控制力管理的技術實踐前面提到，解決數據流通鏈條中賦予數據控制力的問題，主要的方式是針對不同類型的數據采取不同的方式，從宏觀上減少數據使用就要復制的情況出現。那么，在具體實踐里，針對個人數據的隱私保護，又有哪些宏觀分類要素與技術手段呢？

宏觀來看，數據可以分為個人識別信息（PII）和用戶特征值兩類。PII是指像可以在很高精度上在公開環境下定位一個人的數據，比如像美國的SSN，國內的身份證號，郵件地址，甚至有可能是電話號碼。用戶特征值基本可以理解為除了PII以外其它的圍繞個人行為特征或個人特性（如生物統計學數據，人口統計學數據等）的數據了。用戶特征值往往是數據挖掘產生價值的對象，而PII則是扮演著將多個特征值統一在一起的角色，由PII形成的圖是數據鏈條上公司間進行數據融合的橋梁。

可以看出，對PII的控制是數據鏈條中形成控制的關鍵，沒有PII的兩個數據集是很難整合在一起使用的。針對PII的控制一般被稱為De－identification，目前主要有比如脫敏（Data Masking），匿名（Anonymization）和k－匿名（k－anonymization）由弱到強三種比較常見的方式。

脫敏基本是將比如身份證的一部分隱去，從而在可以接近識別的前提下盡量保護數據的隱私，類似于對一般數據處理中的泛化技術。拋開脫敏過程中的信息丟失不談，這種方法顯然是缺乏足夠的安全性的。因為只要存儲和沉淀這樣的masked data，就可以最終反推出原始數據的內容來，因此脫敏的方法在隱私要求比較高的環境中已經不再使用了。

匿名指修改或者移除個人身份信息，隱藏數據和個人的對應關系。一般的數據源會自己生成并管理這種對應關系，由于個人身份信息的完全隱藏，安全性也會遠高于直接對原始PII進行脫敏。同時的對于使用PII來關聯數據集的這一屬性，也可以靠修改內部的對應關系來組織使用匿名數據在外部進行數據集關聯的操作。

k－匿名在匿名的基礎之上提出了個人識別不僅限于PII，任何數據形成的集合都能在一定程度上識別出一個人來，k在這里指的是用這個數據集進行識別時可以將識別的人群縮小為數量為k的集合。k－匿名是目前通用標準中較高的一類，其中k的值越高，隱私保護的效果越好，在Google和Facebook的內部數據管理中都有大量的使用。

用戶特征值數據主要在價值挖掘中被體現，使用的方法宏觀上可以分為使用原始數據和使用統計數據兩類。比如某人在某時某地進行了某次購物可以被認為是原始數據，那么某人在過去的一天里進行了3次購物可以被認為是統計數據。在很多情況下避免原始數據的直接使用是不太影響價值挖掘的同時可以更好的保護原始數據的。

類似的，在鏈條中傳遞用戶特征數據時所使用的控制方法也比較多，常見的就有泛化（比如給定一個范圍而不是具體的數值），統計（如前所述），加密（比如同態加密），差分隱私（比如給定的數值是原始數值的基礎上增加一個噪音），合成（比如將原始數據轉化為代表所需知識的模型或者由模型生成不同于原始數據的新數據）等等。

涉及多方數據的安全運算環境的方式可以從多種角度來劃分。比如從是否存在可信的第三方（或者對于該第三方的信任成本有多大）來談，使用比如GC或者OT來實現的MPC可以實現完全沒有可信第三方的環境，而基于某些同態加密設計或者可信硬件的環境一般是強依賴于對于第三方的可信度的，而可信硬件環境還存在信任硬件產品供應方這一個額外的信任成本。

除了上述的兩類（MPC和可信硬件）之外，也存在許多其它方式在聯合運算中保護原始數據的方法，其中就有比如合成數據（比如通過將原始數據轉換為模型），比如差分隱私（巧妙的選擇在原始數據上面增加噪聲從而在保護原始數據敏感性的前提下不會過多的干涉運算本身），還有比如傳統的泛化（只傳輸包含原始數據的一個范圍）等多種方式。

在實際應用之中，一般會考慮數據的泄露危害程度（比如PII數據的泄露會造成連鎖的數據泄露反應），數據是否容易被沉淀（比如高時效性的數據相對不那么容易被沉淀）等在達到安全級別的前提下，盡可能的保持信息完整性（合成，差分和泛化都會在不同程度上損失原始信息）的同時提升整體系統的運行效率。

在介紹工程實踐的技術類型的同時，我們也希望澄清在實踐中遇到的兩個比較常見的認知誤區：數據隱私解決方案，不等同于單一的密碼學或技術點創新，是一個結合了數據科學、密碼學、聯邦學習、云計算的綜合工程，通常是技術組合的形式；其次，對于數據隱私比較受關注的MPC（多方安全計算），最近幾年，MPC在數學原理上并沒有特別大的根本性變化，更多是工程方面的突破與進展。

數據的流動性具有其必然性和合理性，也是AI在產業中更好發揮智能的基礎，但數據價值挖掘帶來便利的同時，也面臨著隱私侵犯的隱患。

從當下實踐來看，通過給予數據擁有方控制力的方式是平衡數據價值挖掘和隱私保護最有效的方式；而流動中的數據鏈條復雜，通常需要在數據流通的過程中將數據的各種屬性分開管理和授權，盡量減少數據復制的出現，從而降低在整個鏈條上管理控制力的成本。數據流動過程中的隱私保護，是動態的、過程中的數據安全與隱私，對應的技術實踐也將帶來新的產業和創新機會。

對于這個新興的產業，早期我們所選擇的方案也要迎合市場的階段進行漸進式推廣，比如數牘科技的解決方案中就設計了數據流控制，數據擁有方可以控制數據流向為單向或雙向，在現實環境中靈活應用。數據隱私規范和價值挖掘是雙向作用、螺旋上升的過程，只有規范數據使用才可以在匯聚更多數據的基礎上迎來價值挖掘的下一個爆發點。我們很期待未來十年，在隱私規范的推動下創造出新的數據使用范式，推動AI的數據基礎設施革命，并能投入其中貢獻一點自己的力量。

<上一頁 1 2 3