人工智能時代的靶點識別與評估

2026-04-23 16:33

-01-

引言

人工智能正成為藥物發現與開發過程中的變革性工具，影響著從靶點識別到臨床試驗結果分析的各個環節。靶點識別是發現與開發新藥的第一步，其目標是選擇一個能夠被調節、以產生預期治療效果且具有足夠安全性的生物分子。這一步驟對后續步驟的成功概率及其所需資源至關重要。

傳統的靶點發現仍然充滿挑戰，主要原因在于對許多疾病背后生物復雜性的理解有限，以及從人類基因組學和疾病模型等來源提取必要見解時面臨的技術和資源限制。在人類約20,000個蛋白質編碼基因中，估計有4,500個被認為是“可成藥”的。然而，迄今為止所有獲批的藥物僅通過716個不同的靶點發揮作用，這僅占可成藥靶點空間的一小部分，凸顯了未來靶點發現研究的巨大機遇。

治療性靶點識別涵蓋選擇疾病領域，隨后對與疾病生物學相關的多種現有數據源進行全面挖掘和分析，并擴展至生成、獲取和分析新數據以編制潛在靶點列表。這些候選靶點隨后需根據可成藥性、安全性、可專利性、競爭分析和實驗驗證等關鍵標準進行嚴格評估。許多步驟的效率和效果可以通過合適的人工智能工具得到增強，這些工具能夠整合異構的大規模數據集，構建疾病生物學的統一表征，并通過機器學習模型揭示潛在機制。此外，人工智能可以預測與靶點可及性和風險相關的關鍵特性，并能通過自動化實驗室指導實驗設計，實現迭代優化。

-02-

一、靶點識別的關鍵考量因素

1. 治療假說

識別一個治療靶點及其調節預期影響疾病生物學、轉化為患者有意義的治療效果并具有足夠安全性的機制，是一項復雜且多方面的挑戰。歷史上，動物疾病模型研究和/或臨床觀察通常為圍繞特定生物靶點制定治療假說提供了關鍵信息。隨著1980年代以來基因組技術的進步，來自人類遺傳學和/或涉及細胞及動物模型中基因擾動研究的知識，已成為靶點識別工作中日益重要的貢獻者。

過去15年中，人們日益認識到許多疾病的動物模型預測價值有限，以及支持治療靶點假說的人類來源證據的重要性。在此基礎上，一個顯著的趨勢是應用因果生物學研究，即在大型人類數據集中采用因果推斷技術。研究人員整合全基因組關聯研究（GWAS）與定量性狀位點分析，并使用孟德爾隨機化等方法，來檢查基因或蛋白質表達水平對疾病的影響，從而為潛在藥物靶點提供有價值的證據。因果生物學研究的另一種策略是利用人類細胞系中的擾動實驗數據來推斷機制關系并提名治療靶點。

2. 可成藥性與安全性

靶點可成藥性這一術語用于描述識別一種藥物候選物的潛力，該候選物能夠以假設導致特定疾病患者獲得預期結果的方式調節靶點的功能。對于小分子療法，可成藥性與配體結合能力密切相關，后者指的是靶點表面存在特征明確、可及的口袋，藥物樣小分子可以與之結合。了解靶點的三維結構和配體結合能力有助于優先考慮潛在靶點，并指導基于結構的藥物設計。

如今，越來越多超越小分子的其他治療方式已得到臨床驗證，包括基于抗體的療法、基于寡核苷酸的療法以及基因和細胞療法。這些療法擴展了潛在可成藥的疾病相關靶點領域。新興的人工智能工具如AlphaFold3可用于促進可成藥性評估，為蛋白質-配體、抗體-抗原和寡核苷酸-蛋白質復合物提供準確的結構預測。

雖然可成藥性是衡量靶點對治療藥物臨床擾動易感性的指標，但安全性本質上與這種相互作用的特異性相關。在靶點識別階段評估此類效應的風險依賴于預測毒理學和分析靶點相關生物通路，以預測潛在不良效應。然而，大多數副作用是通過脫靶相互作用發生的。盡管全面預測脫靶效應仍然具有挑戰性，但基于預期靶點與脫靶點之間的結構相似性，可以在靶點識別/評估階段預測某些脫靶相互作用的潛在風險。

3. 新穎性、置信度與商業可及性

靶點的戰略選擇通常涉及新穎性與靶點在疾病中作用的置信度之間的微妙權衡。高置信度靶點得到更多科學證據支持，提供了更清晰的臨床轉化路徑，降低了藥物開發的風險。然而，新型靶點為突破性療法提供了機會，特別是對于未滿足醫療需求的疾病。

新穎性與置信度之間的相互作用與靶點的商業可及性相關。新型靶點有潛力徹底改變疾病的治療并開辟新市場，而已建立的靶點則可提供更可預測和更安全的投資，但面臨來自其他藥物的更大競爭。通常被稱為“首創”與“同類最佳”的這種平衡，影響著市場動態、競爭力、知識產權強度、總體投資和潛在回報。

4. 組合價值

一個靶點提供作為聯合療法一部分給藥的藥物基礎的潛力通常越來越重要，因為藥物組合的協同或相加效應已被證明可以降低耐藥可能性、增強治療效果并拓寬治療應用。

-03-

二、人工智能在治療性靶點識別中的應用

1. 用于靶點識別的數據

人工智能在識別治療性靶點中應用的基石是其處理和分析廣泛復雜多模態數據的能力。公開可用的數據源包括組學數據、生物圖譜、臨床與表型數據、文本信息以及知識產權與產業信息。

組學數據：包括遺傳、轉錄組、蛋白質組、代謝組、表觀遺傳和微生物組數據，提供了全面的生物信息，能夠系統性觀察疾病的分子層面。機器學習模型有助于整合多樣化的多組學數據，以構建更全面的疾病分子圖譜。

細胞成像數據：基于人工智能的生物圖像分析可以為靶點識別、藥物篩選和潛在療法的優化提供信息。例如，Cell Painting測定與機器學習算法相結合，已被用于識別腸道纖維化的治療靶點。

生物知識圖譜：生物知識圖譜以圖結構組織和表示生物實體之間復雜的關系和相互作用。各種類型的知識圖譜已成為人工智能靶點研究的熱門數據源。

臨床與表型數據：當與人工智能結合分析時，這些數據可以揭示疾病機制、患者分層和潛在治療途徑的見解。

文本信息：人工智能系統可以解析和分析大量科學文獻以提取相關信息，從而生成新的疾病假說、識別治療靶點和制定治療策略。

整合異構數據類型：為了最大化異構數據源對靶點識別和評估的價值，有效的整合策略至關重要。一種方法是構建異構知識圖譜；另一種策略是使用數據庫技術在單一平臺或數據倉庫中協調異構數據源。

2. 用于靶點識別的人工智能模型

機器學習在分析大量生物醫學數據以發現先前未知的疾病相關靶點方面顯示出顯著潛力。用于靶點識別和評估的機器學習框架包括監督學習、無監督學習和半監督學習。此外，新興的人工智能技術如表征學習、圖神經網絡、生成式人工智能、基礎模型和大語言模型也被應用于靶點發現。

監督學習：監督學習使用標記數據來訓練模型，使其能夠對未見數據集進行預測或分類。該框架廣泛用于預測藥物-靶點相互作用。監督學習方法也被用于通過結合靶點特征來預測特定疾病的靶點。

無監督學習：無監督學習分析未標記數據以識別隱藏的關系和結構，通常使用聚類和降維等技術。另一種形式是自監督學習，它利用未標記數據中的內在信號生成監督信息，使模型能夠在沒有外部標注的情況下學習有意義的模式。

半監督學習：半監督方法將少量標記數據與大量未標記數據相結合，通常在標記數據稀缺或獲取成本高昂的情況下，有助于改進在大型未標記數據集上的學習過程。

表征學習：表征學習支撐著圖神經網絡、生成式人工智能、基礎模型和大語言模型等先進的人工智能技術。它將不同的生物數據實體編碼為潛在嵌入向量，這些向量捕獲了內在和上下文相關的生物特性，促進了包括靶點識別在內的廣泛下游任務。

圖神經網絡：圖神經網絡使人工智能系統能夠利用生物圖譜數據進行靶點發現。

生成式人工智能：生成式人工智能模型通�；谏疃壬窠浘W絡架構構建，旨在生成新數據，并已廣泛應用于文本和圖像生成等領域。在靶點識別背景下，生成式人工智能可用于生成合成數據集，促進下游分析。

基礎模型：基礎模型通過在龐大、多樣的數據集上進行預訓練，在自然語言處理和計算機視覺方面取得了顯著成功。經過微調后，這些模型非常通用，并且通常優于特定任務的模型。隨著生物醫學數據集的不斷增長，基礎模型有望在未來靶點識別研究中發揮越來越大的作用。

大語言模型：大語言模型已經催生了用于治療性靶點識別和評估的人工智能代理框架的出現。

3. 人工智能模型驗證

治療性靶點識別人工智能模型的驗證是確保其可靠性和適用性的關鍵步驟。關鍵的驗證方法包括回顧性驗證、實驗驗證和前瞻性驗證。

回顧性驗證：回溯測試是一種回顧性驗證技術，用于評估人工智能模型使用歷史數據準確識別已知治療靶點的能力。

實驗驗證：人工智能預測靶點功能的實驗驗證及其與治療劑的潛在相互作用涉及嚴格的體外測定。體內動物研究可以進一步闡明靶點在疾病機制中的作用以及干預策略的潛在影響。

前瞻性驗證：雖然實驗驗證旨在通過實驗立即評估人工智能識別的藥物靶點的生物學相關性和治療潛力，但前瞻性驗證對于確保人工智能模型能夠在實際環境中準確預測結果至關重要。治療靶點的最終驗證在于成功的人體臨床試驗。

-04-三、人工智能在靶點評估中的應用

1. 靶點可成藥性評估

對于選擇進行藥物開發的靶點，評估其結構和功能特征、結合位點以及開發能夠以特定、有效和安全的方式與靶點相互作用的小分子或生物制劑的可行性至關重要。在這方面，用于蛋白質結構預測的人工智能工具非常有價值。AlphaFold的引入徹底改變了結構生物學。盡管AlphaFold在多個應用中顯示出重要價值，但其在基于結構的藥物發現中的應用尚不確定。

人工智能還可以通過識別蛋白質中的隱秘口袋來促進可成藥性評估。這些口袋在無配體的實驗結構中不存在，可能在構象變化過程中形成，有可能作為先前被認為不可成藥的蛋白質的結合位點。

2. 靶點新穎性與商業可及性

最近的一項研究報道了一種人工智能驅動的方法，通過新穎性和商業潛力的雙重評估來評估癌癥治療靶點。靶點新穎性是通過對藥物開發狀態、治療領域特定文獻和科學文件的全面分析來定量確定的。商業可及性是使用一個專門的大語言模型進行評估的，該模型整合了多個參數。

-05-四、人工智能支持的靶點識別實例

新靶點最終只有通過成功的臨床試驗才能得到驗證，這些試驗為監管批準提供了基礎。目前，尚無源自人工智能驅動靶點識別的藥物達到這一階段，僅有有限數量的靶點使用人工智能工具識別或支持其治療潛力的候選藥物已進入臨床試驗。

1. TNIK作為特發性肺纖維化的靶點

Insilico Medicine最近的一項研究展示了端到端生成式人工智能在藥物發現中的應用，以識別用于治療特發性肺纖維化的新靶點和潛在候選藥物。利用來自IPF和健康肺組織的多組學數據集，他們的人工智能平臺將TNIK列為頂級靶點。盡管TNIK的間接功能先前已被研究，但它尚未作為IPF的治療靶點進行研究，這使其成為該平臺選擇的新靶點。

2. APLNR作為抗衰老靶點

人工智能驅動的人類數據分析有助于降低有前景的藥物靶點臨床轉化的風險。BioAge開發的一個藥物發現平臺結合了縱向多模態人類衰老數據集，并應用計算工具來識別與長壽和延遲疾病發作相關的分子特征。

3. PIKfyve作為肌萎縮側索硬化癥的靶點

肌萎縮側索硬化癥是一種罕見的神經肌肉疾病。PIKfyve抑制在多種ALS類型中的治療潛力得到了ConVERGE的進一步支持，ConVERGE是一個人工智能驅動的藥物開發平臺，專注于來自人類的數據。

4. DRD2作為抗癌靶點

雖然TNIK、APLNR和PIKfyve等靶點的識別說明了基于靶點的藥物發現范式，但另一種方法涉及表型篩選后的靶點去卷積。傳統上，靶點去卷積依賴于實驗室實驗，但這一過程正日益得到人工智能的支持。DRD2作為抗癌藥物靶點的識別就是一個顯著的例子。

-06-五、挑戰與未來方向

將計算預測轉化為具有臨床意義的結果仍然受到重大技術和操作挑戰的限制。

1. 數據質量與可用性

人工智能在靶點識別中的應用在很大程度上依賴于用于訓練的大規模、高質量數據。盡管組學數據近幾十年來迅速積累，但其在模型訓練中的應用面臨重大挑戰。額外的限制包括罕見疾病、種族和少數民族以及社會弱勢群體缺乏組學數據，這可能導致模型泛化能力差。對于科學文獻數據，已發表研究結果的可重復性是一個重大挑戰。

2. 多模態數據分析的整合

克服單模態數據局限性的一種有前景的策略是整合多模態數據集。越來越多的證據表明，多模態方法在靶點發現相關任務中始終優于單模態方法。

3. 可解釋的人工智能模型

機器學習技術，特別是深度學習，通常不提供關于內部計算過程如何導致特定輸出的見解，這阻礙了故障排除過程，并使識別和糾正錯誤變得困難。這種不透明性阻礙了領域專家對這些模型的評估，影響了它們的接受度。作為“黑箱”問題的解決方案，可解釋模型闡明了模型預測背后的原理。

4. 標準化指標與基準測試框架

治療性靶點識別人工智能模型的評估需要標準化的驗證指標和基準，以確保科學嚴謹性并促進方法間的公平比較。標準指標通常用于評估藥物-靶點相互作用預測模型。盡管這些指標對于量化預測準確性有效，但它們常常忽略了疾病特異性治療靶點所必需的生物學相關性和臨床可行性。新興的基準測試系統旨在通過整合多模態數據并強調臨床實用性來克服這些局限性。

5. 合成數據與數字孿生

合成數據是指人工生成的、模擬真實世界生物模式和特征的數據，可以由人工智能算法生成以模擬不同的生物場景。合成數據還可以用于創建數字孿生，即個體實體（如患者、器官或細胞）的虛擬模型。

6. 人工智能驅動的閉環實驗平臺

人工智能驅動的閉環實驗平臺代表了一種新興范式，其中人工智能模型提名治療靶點，自動化實驗室測試靶點調節，結果流入人工智能分析工具，分析輸出反饋到靶點識別模型中以優化靶點優先排序。閉環設計通過端到端機器人處理化合物、生物樣本、成像和多組學數據，并結合人工智能工具實現。

-07-結語

人工智能的整合正在使治療性靶點識別和評估實現更系統化、數據驅動的方法。人工智能分析跨越高維組學、表型成像和大型知識圖譜的多模態數據的能力，解決了長期存在的與生物復雜性和轉化失敗相關的障礙。機器學習框架、神經架構、生成式人工智能和基礎模型的進步進一步賦能研究人員發現新的治療靶點并評估其可成藥性。這一進展反映在若干人工智能識別的靶點已進入臨床階段開發。

然而，要充分發揮這些技術的潛力，需要解決持續存在的挑戰�？朔䲠祿∪焙推姟⑻岣吣Ｐ涂山忉屝砸约敖栏竦幕鶞蕵藴�，對于將人工智能工具的預測整合到決策過程中仍然至關重要。靶點發現的未來在于通過人工智能驅動的閉環平臺實現計算和實驗工作流的融合，加速將生物學見解轉化為有效、臨床可行的療法。

參考資料：Target identification and assessment in the era of AI. Nat Rev Drug Discov. 2026 Apr 20.

原文標題 : 人工智能時代的靶點識別與評估

人工智能藥物靶點臨床