英矽智能任峰：數據與算法優化是AI新藥研發的壁壘，藥企對AI制藥的態度更加開放

2022-01-12 14:24

英矽智能與復星醫藥的合作或將開啟AI制藥與藥企合作的轉折點。

本文為IPO早知道原創

作者｜羅賓

微信公眾號｜ipozaozhidao

據IPO早知道消息，上海復星醫藥（集團）股份有限公司（下稱“復星醫藥”，600196．SH，02196．HK）與端到端人工智能驅動的藥物研發公司英矽智能（Insilico Medicine）于1月10日宣布達成合作協議，在全球范圍內共同推進多個靶點的AI藥物研發。

《IPO早知道》對話了英矽智能首席科學官任峰博士，他結合此次合作分析了AI制藥行業最新的變化。

英矽智能首席科學官任峰博士（來源：受訪者提供）

任峰表示：“以往藥企對于AI賦能新藥研發抱有試探性的態度，但現在越來越開放地進行共同的研發。這次合作從規模和首付款金額上看都是業內迄今最大的一次合作，我希望這次合作也能推動傳統藥企今后在與AI企業的合作上有更大的決心和步伐。”

此次戰略合作包括針對四個指定靶點的以人工智能驅動的藥物研發合作，以及雙方對于英矽智能QPCTL項目的共同開發合作。根據協議，英矽智能將獲得1300萬美元的首付款，及里程碑式付款，并分享QPCTL項目的商業化利潤。此外，復星醫藥將向英矽智能提供股權投資。

根據合作協議，英矽智能將負責為QPCTL項目提名臨床前候選藥物，并將該候選藥物推進到臨床前階段，之后復星醫藥將對其展開臨床階段研究，共同推進該項目在全球范圍內的開發。同時，復星醫藥的研發團隊將提名四個靶點，由英矽智能的人工智能平臺和研發團隊進行評估和開發，并將候選藥物推進到臨床前階段。作為合作的一部分，復星醫藥將獲得英矽智能人工智能平臺PandaOmics和Chemistry42的使用權，以推進公司內部人工智能驅動的藥物發現和開發工作。

任峰表示，盡管很多AI公司都取得了進展，但AI還是個新事物，目前也沒有任何一家AI公司可以證明它的算法是最好、最正確的。只有保持算法的優化能力，AI賦能藥物研發的公司才能維持自己的競爭力，而算法優化的能力需要經過長時間的驗證、積累，所以難以被復制。此外，數據的標準化也是這個行業中的企業壁壘。所以未來AI公司的競爭會從單純的算法、項目層面的競爭進化為數據獨特性的競爭。

以下是《IPO早知道》精編整理的對話內容：

Q：IPO早知道

A：任峰

Q：英矽智能此次與復星醫藥的合作背景、雙方價值與能力的匹配點是什么？

A：這次合作以股權投資加項目合作的方式展開，包括QPCTL項目的共同開發。QPCTL之前是我們內部的一個自研項目，QPCTL是CD47信號通路中的一個靶點，我們在針對此靶點的早期動物實驗中看到它對癌癥的免疫治療有非常好的效果。復星看到了此項目的價值，同時也想利用我們的人工智能平臺賦能他們希望推進的另外幾個靶點，所以在這個背景下雙方達成了這次的研發合作。在AI制藥公司與藥企的臨床前合作項目中，我們此次合作無論是從規模還是首付款都是至今最大的，可以說開創了一個先河。雙方進行了很充分的溝通，復星不僅認可我們的在研項目，也認可我們端到端的藥物研發平臺及我們的團隊，通過股權投資的形式，希望能跟我們一起成長，而復星的臨床研究和后續商業化實力很強，與我們能形成優勢互補。

Q：藥企對AI制藥的態度從謹慎轉變到更大規模的合作，對行業的未來影響會是什么？

A：我們相信這對行業是很大的利好。去年以來，我們陸續看到國外的大藥企與AI制藥公司達成重磅合作，這代表這大藥企對AI制藥的態度越來越開放。相對來說，國內藥企和AI制藥的合作還處在試水階段，合作規模小、項目數量少、首付款較低，藥企希望看到一些里程碑進展后再擴大合作金額和規模。本次我們的合作伙伴復星醫藥對于創新性的藥物研發有魄力和遠見，例如，它也是國內第一個引進CAR－T項目的企業。我希望我們這次的合作能夠對國內AI制藥領域有一定的推動作用，希望大家對國內藥企和AI制藥公司之間的合作模式有新的思考，希望它們在AI賦能新藥研發上步子邁得更大一些，合作方式的改變對新藥研發行業來說也是很大的助力。

Q：英矽智能如何選定與藥企的合作內容確保大家目標的一致性？

A：首先我們傾向于尋找與我們的資源優勢互補的藥企，比如在臨床前評價、臨床試驗或商業化上有優勢的企業，我們能很好地展開互補協作。第二，我們希望選擇雙方都感興趣的合作項目，這樣可以保證項目的持續推進，不會因為一方的中途退出導致項目擱淺。第三，我們也希望能研究一些真正能解決未滿足的臨床需求的項目，而非純粹拼速度的項目，避免不必要的競爭，把資源集中用到真正需要的地方。

Q：我們有端到端的AI藥物研發平臺，其研發鏈條中所訓練數據的標準化程度現在發展到哪了？

A：現在標準化還并不成熟，因為不同實驗室或是不同的公司數據標準化程度都不一樣，這就為我們用大數據去訓練AI模型造成了一定挑戰。當然我們有自己的解決方案，比如我們通過轉錄組學的公開數據庫來訓練靶點發現平臺。我們的生物信息團隊會把我們認為能用、好用的數據進行過濾和標準化處理轉化成機器可讀的格式，來進行機器學習。

在轉錄組學數據處理過程中我們不能把來源不同的數據直接整合到一起，而是分成了不同模塊的數據，避免數據之間的相互污染。雖然數據總量很大，但我們是通過小塊學習來訓練我們的模型的，否則容易出問題。這也是一種聯邦學習的方法。

Q：現在AI算法迭代的頻率有變化了嗎？

A：我們認為反而不是“迭代”這個詞，而是“淘汰”這個詞。以我們的Chemistry42平臺為例，我們自己從2016年開始做化學方面的算法，剛開始我們發展了170多種算法去產生小分子化合物，我們基本上把當時能想到的算法都包括了。后面我們通過自研項目和對外合作，發現在170多種算法里有140多種沒有產生過所需要的小分子化合物，于是我們將它們淘汰掉，留下約30種算法，它們持續幫我們產生有用的化合物。可能再過幾年，算法會繼續縮減，這樣命中率也會越來越高，因為產生不理想結果的算法被淘汰掉了。另一方面，我認為所謂迭代，很難去加入新的算法，雖然我們也在嘗試加入，但這些新算法還是要通過試驗來證明它是好是壞，這又需要三四年的時間。總結來看，這是以不斷驗證為前提，留下或淘汰算法的過程。

Q：經過驗證的時間本身也是我們的一種競爭的壁壘。

A：是的，理論上AI公司用的都是公開數據，底層算法也沒有專利保護，大家都能做數據的訓練，這方面壁壘很小，但我們有的更多是know－how的壁壘，我們的算法從170種濃縮到30種，但這個過程是難以復制的，大家的命中率就產生了差別。

另一點還是數據的壁壘。我們剛討論的轉錄組學數據雖然是公開的，但我們生物信息團隊花了將近7年時間完成可用數據的篩選和一些標準化的過程。雖然大家都想做這樣的處理，但都是需要投資時間、精力和財力的。

Q：我們的新靶點、疑難靶點發現方面，如何基于優勢立項管線？

A：我們是AI賦能的新藥研發公司，所以潛在項目首先是要我們的靶點發現平臺能夠賦能的靶點，具體來說我們可以利用患者的轉錄組學數據來尋找新的靶點。我們選擇的靶點中百分之70－80％是有臨床I期或II期試驗結果的靶點，20％左右是全新靶點，這樣可以平衡我們的風險和收益。在這百分之70－80％的靶點里，我們通過自己的數據處理，識別出它目前在臨床階段的化合物哪些有缺陷，然后我們會針對有缺陷的化合物進行改造，以此來確定要選擇的靶點。

Q：中國的AI制藥在人才、資金上都比以前到位了，現在決定AI企業進步速度的是什么？未來會有馬太效應嗎？

A：馬太效應是會有的，相對頭部的公司規模更大的話有利于它吸引人才和資金。但另一方面，AI還是個新事物，到目前為止沒有任何一家AI制藥公司可以百分之百證明它的算法是最好的，是完全正確的，所以后來者也有機會去趕超。雖然有的公司是近兩年才成立的，但它有可能因此避免掉很多更早的AI公司所走過的彎路。而且算法更新的永遠是更好的，一家獨大的機會在這個領域不容易出現。暫時領先的公司需要通過不斷優化自己的算法去保持競爭上的優勢，而后來者如果專注于它所擅長的領域，有可能它的算法能變成某一領域最好的。

而且再往后發展，AI公司的競爭會從單純的算法、項目層面的競爭進化為數據之間的競爭，我們可以看到很多AI公司已經開始想辦法收集自己獨有的數據，也就是按照自己的算法需求處理的數據，保證自己數據的獨特性，比如我們自己的轉錄組學數據。

Q：除了公開數據，我們與藥企合作時使用的數據會幫助我們提升算法嗎？

A：這種數據分享情況很少，因為通常我們與藥企的協議有很強的排他性，也就是說我們不能把這一次合作中的數據應用在其他的任何項目中。

Q：薛定諤等物理計算的AI企業也有自己的商業模式，也獲得了中國藥企合作。物理計算、AI計算兩種AI技術路徑將分別發揮什么作用？

A：這個問題本質上是CADD和AIDD的區別。薛定諤的軟件基于量子力學的計算，比如薛定諤可以把小分子和蛋白之間的能量計算得非常精確，它是把已經生成的小分子與蛋白質的結合做一些排序，屬于CADD（計算機輔助藥物設計）的范疇。而AIDD（AI驅動的藥物設計）不涉及量子力學計算，它是對已知規律的歸納總結。

AIDD的輸入端是某種化合物結構，機器學習能夠總結某種結構對應某種活性并演繹出來，所以計算的產出就是幫助我們設計出更好的小分子化合物。比如針對一個蛋白，我們的Chemistry42能產生上百到上千個能跟其結合的小分子化合物，但是它們的結合能力有多強，可以由CADD的方法對這上千個的化合物進行排序。