NVIDIA Clara Discovery 旨在為研究人員提供所需工具,以加速藥物發現
NVIDIA 攜手生物制藥公司阿斯利康( AstraZeneca )和佛羅里達大學的學術健康中心和佛羅里達大學健康學院,利用突破性的Transformer神經網絡開展新的 AI 研究項目。
近些年來新提出的基于Transformer的神經網絡架構,讓研究人員可以利用自監督訓練方法使用批量數據集進行預訓練,無需手動標注數據。這些模型可以像學習語言語法一樣,學習句法規則來描述化學,并應用于跨研究領域和模式。
NVIDIA 正與阿斯利康合作開發一種基于Transformer的生成式 AI 模型,用于藥物研發的化學結構生成,這將是首個在 Cambridge-1上運行的項目,并且Cambridge-1將會成為英國最強大的超級計算機。這種模型會開源,在 NVIDIA NGC 軟件目錄中供研究人員和開發者使用,并且可部署在 NVIDIA Clara Discovery 計算藥物研發平臺上。
另外,佛羅里達大學健康學院正在利用NVIDIA最新的Megatron框架和NGC上的BioMegatron預訓練模型來開發GatorTron,這是迄今為止最大的臨床語言模型。
新 NGC 應用程序包括 AtacWorks,一種深度學習模型,用于識別可獲取的 DNA 區域;以及 MELD,一種從稀疏、模糊或噪聲數據中推斷生物分子結構的工具。
用于分子分析的 Megatron 模型
由 NVIDIA 和阿斯利康開發的藥物研發模型 MegaMolBART 計劃用于反應預測、分子優化和分子生成。此模型基于阿斯利康的 MolBART Transformer 模型,并在 ZINC 化合物數據庫上進行訓練 —— 利用 NVIDIA 的 Megatron 框架在超算基礎設施上進行大規模擴展訓練。
大型 ZINC 數據庫允許研究人員預訓練模型來理解化學結構,無需手動標記數據。憑借對化學的統計理解,該模型將用于完成一系列下游任務,包括預測化學物質之間的相互作用,以及生成新的分子結構。
阿斯利康分子 AI、發現科學和研發部門主管 Ola Engkvist 表示:“正如 AI 語言模型可以學習句子中詞語之間的關系一樣,我們的目標是通過分子結構數據訓練的神經網絡將能夠學習現實世界分子中原子之間的關系。開發完成后,NLP 模型將成為開源模型,為科學界提供一個加速藥物研發的強大工具。”
該模型使用 NVIDIA DGX SuperPOD訓練,幫研究人員發現數據庫中不存在但可能是潛在候選藥物的分子。稱為 in-silico 技術的計算方法,讓藥物開發人員在進行昂貴且耗時的實驗室測試前,可以在廣闊的化學空間中搜索更多內容并優化藥理特性。
此次合作將使用由 NVIDIA DGX A100 賦能的 Cambridge-1 和 Selene 超級計算機大規模地運行大型工作負載。Cambridge-1 是英國最大的超級計算機,在 Green500 位列第三,在全球性能最強大的系統 TOP500 榜單中排名第 29 位。NVIDIA 的 Selene 超級計算機排在最新的 Green500 榜首,位列 TOP500 第五。
語言模型加速醫療創新
佛羅里達大學健康學院的 GatorTron 模型使用 200 萬名患者的超過 5,000 萬次互動記錄進行訓練,這是一個突破,可以幫助確定需要進行臨床試驗的患者,預測并向健康團隊提醒危及生命的情況,并為醫生提供臨床決策支持。
佛羅里達大學教務長 Joseph Glover 表示:“GatorTron 利用十多年的電子病歷來開發最先進的模型。該校最近使用 NVIDIA DGX SuperPOD 提升了超級計算設施。這種規模的工具能幫助醫療健康研究人員獲取見解,并根據臨床筆記記錄判斷先前無法獲取的醫療趨勢。”
除臨床醫學外,該模型還可以快速創建患者群組進行臨床試驗,以及研究特定藥物、治療或疫苗的效果,來加速藥物研發。
該模型利用 BioMegatron(有史以來訓練規模最大的生物醫學 Transformer 模型)構建,BioMegatron是 NVIDIA 應用深度學習研究團隊使用 PubMed 語料庫數據開發的。BioMegatron 可以從NGC上的 Clara NLP獲取(Clara NLP是用生物醫學和臨床文本進行預訓練的 NVIDIA Clara Discovery 模型集合)。
佛羅里達大學健康事務部副主席兼佛羅里達健康學院主席 David R.Nelson 博士表示:“GatorTron 項目是一個學術界和業界專家使用前沿人工智能和世界一流計算資源進行協作的杰出范例。我們與 NVIDIA 的合作,對于佛羅里達大學成為人工智能專業知識和開發中心至關重要。”
為藥物研發平臺賦能
計算藥物研發平臺也采用了 NVIDIA Clara Discovery 庫和 NVIDIA DGX 系統,從而推動藥物研究。
Schr?dinger 化學模擬軟件開發領導者,今天宣布與 NVIDIA 建立戰略合作伙伴關系,包括科學計算和機器學習研究、NVIDIA 平臺上的 Schr?dinger 應用程序優化,以及圍繞 NVIDIA DGX SuperPOD 的聯合解決方案,在數分鐘內評估數十億種潛在藥物化合物。
生物技術公司 Recursion 已安裝了 BioHive-1,這是一款基于 NVIDIA DGX SuperPOD 參考架構的超級計算機,截至 1 月,該超級計算機在全球頂尖計算機系統 TOP500 榜單中排名第 58 位。BioHive-1 讓 Recursion 能夠在一天內運行深度學習項目,而之前使用他們已有的集群完成該項目需要一周時間。
Insilico Medicine是 NVIDIA Inception 初創加速計劃的合作伙伴,近日宣布發現了一種用于治療特發性肺纖維化的新臨床前候選藥物——這是首個針對新疾病靶標進行AI 分子設計,并用于臨床試驗的示例。由 NVIDIA Tensor Core GPU 驅動的系統生成化合物,從目標假設到臨床前候選人選擇,僅用時不足 18 個月,花費不到 200 萬美元。
作為 NVIDIA Inception初創加速計劃的一員,Vyasa Analytics使用 Clara NLP 和 NVIDIA DGX 系統,讓用戶獲得用于生物醫學研究的預訓練模型。該公司 GPU 加速的 Vyasa Layar Data Fabric 為多機構癌癥研究、臨床試驗分析和生物醫學數據協調解決方案提供動力支持。
歡迎免費注冊觀看NVIDIA 創始人兼首席執行官黃仁勛的主題演講。參加本周的 GTC詳細了解 NVIDIA 在醫療健康行業方面的進展,醫療健康分論壇包括 16 場在線研討會、18 場特別活動以及 100 多場演講。