RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何在化學和材料科學領域開展有影響力的人工智能研究?(一)

向欣電子 ? 2024-12-03 01:02 ? 次閱讀

寫在開頭

近期,我有幸參加了多場既包括學術研討又涵蓋業(yè)界實踐的會議,這些會議都集中討論了人工智能與科學的結(jié)合。而通過這些深入的交流讓我深刻體會到,在科學技術領域中,尤其是‘AI for Science(AI4S)’和‘Science for AI(S4AI)’這兩個方向,人工智能的重要性正日益凸顯,并且發(fā)展勢頭迅猛。為了更深入地理解這一領域的最新動態(tài)和應用,我投入了大量的時間和精力進行了學習和研究。在這個過程中,我意外發(fā)現(xiàn)了一篇名為《How to do impactful research in artificialintelligencefor chemistry and materials science》[1]的綜述文章,它不僅提供了一個關于人工智能在化學和材料科學領域應用的全面的視角,而且還涵蓋了當前的研究進展、面臨的挑戰(zhàn)以及未來的發(fā)展方向等內(nèi)容。

文章首先深入探討了人工智能在化學和材料科學領域中的應用現(xiàn)狀及未來發(fā)展趨勢。然后列舉了機器學習在化學領域的多種應用,包括從預測分子性質(zhì)到設計合成路線,再到模擬和分析,覆蓋了化學研究的諸多方面。此外,論文還分析了機器學習研究者如何看待和解決具體的化學問題,其中將這些問題轉(zhuǎn)化為機器學習的經(jīng)典問題,如回歸、分類、生成模型和智能體等,并探討了基準測試、跨學科合作以及深度學習中的“慘痛的教訓”等關鍵主題。

更重要的是,論文指出了選擇有影響力的機器學習研究問題的標準,以及進行有效研究所需的步驟——包括數(shù)據(jù)收集、問題框架制定、方法選擇和結(jié)果評估。文章強調(diào)機器學習在化學領域發(fā)展的三個關鍵方向:廣度、深度和規(guī)模,并呼吁化學家與機器學習研究者之間的緊密合作,以解決更復雜和具挑戰(zhàn)性的科學問題。

接下來,我將逐步分享這篇綜述文獻的內(nèi)容。由于編譯后的內(nèi)容篇幅較長,因此我計劃將其分為三個部分來逐一呈現(xiàn)。首先是第一部分編譯的內(nèi)容,如下:

第一部分編譯后的內(nèi)容:

摘要:機器學習已經(jīng)廣泛地影響了多個科學領域,包括化學和材料科學。盡管機器學習已經(jīng)產(chǎn)生了顯著的影響,但其潛力和成熟度尚未完全發(fā)揮出來。在這篇文章中,我們首先概述了機器學習在化學領域中各種問題在當前的應用情況。然后,我們討論了機器學習研究者應該如何看待和處理該領域的問題。最后,我們提出了在化學研究中最大化機器學習影響的一些思考和看法。

1.引言

機器學習已經(jīng)在化學領域得到了廣泛的應用,并且這種應用正迅速增長。盡管如此,我們認為ML仍有更大的發(fā)展空間和應用潛力。目前的工作尚未充分發(fā)揮機器學習在推動化學理論和應用方面的廣度、深度和規(guī)模潛力。此外,ML能夠解決的實際問題類型,如假設生成或促進科學理解的內(nèi)化,依然是活躍的研究領域或未解決的問題。

為了全面地了解這一領域,我們首先需要對化學問題進行分類,這些問題涵蓋了預測、生成、合成、力場、光譜學、反應優(yōu)化和基礎模型等多個領域。接著,我們介紹了機器學習中涉及的問題類型,并展示了化學問題如何被重新構(gòu)思為機器學習問題的實例。通過這些標準問題,有助于整理出機器學習提供的算法和理論工具。在深入探討這一視角的基礎上,我們還研究了機器學習和化學社區(qū)在實踐和價值觀上的差異,強調(diào)了合作和交叉啟發(fā)的觀點如何推動這兩個領域的發(fā)展。有了這些基礎,我們可以討論如何選擇在化學中應用機器學習的有影響力的應用,并推薦了我們在這一領域研究的良好實踐。

2.數(shù)據(jù)驅(qū)動的化學:問題分類

對于化學,以及科學總體而言,都涉及以某種形式存在的數(shù)據(jù)。因此,可以毫不奇怪地認為,數(shù)據(jù)科學對化學是至關重要的。作為數(shù)據(jù)科學的一個子領域,機器學習已經(jīng)成為我們學科領域不可或缺的工具。因此,對迄今為止的重要工作進行分類和組織變得尤其重要了。

我們提出了一種關于機器學習在化學問題中的應用分類法。如圖1所示,機器學習被用于通過對化學結(jié)構(gòu)、性質(zhì)、3D結(jié)構(gòu)與動力學以及實驗數(shù)據(jù)進行編碼和解碼,從而解決各種化學問題。由于篇幅、時間和重點的限制,這并不是一篇全面的綜述,而是一個強調(diào)機器學習在化學領域多樣化應用的機會。我們不會詳細介紹機器學習算法。如需詳盡的評估,請參見其他文獻。

340f4682-b0cf-11ef-8084-92fbcf53809c.png

圖1:與機器學習相關的化學問題分類法。每個箭頭表示機器學習的應用,并展示這些內(nèi)容之間的關系?;A模型和自動化實驗室涵蓋所有這些領域。

2.1 從結(jié)構(gòu)到性質(zhì):性質(zhì)預測

2.1.1 化學信息學與定量構(gòu)效關系。

化學領域在“機器學習”這一術語廣泛使用之前,就已經(jīng)開始利用數(shù)據(jù)來預測化學結(jié)構(gòu)的性質(zhì)。這個領域最初被稱為化學信息學。這些工具旨在存儲、檢索和建?;瘜W結(jié)構(gòu)。早期的例子可以追溯到1957年,當時進行的是數(shù)據(jù)庫中的子結(jié)構(gòu)搜索,隨后便是簡單的多元回歸,用于學習定量結(jié)構(gòu)-活性關系(QSAR),即分子描述符(如哈米特(Hammett)常數(shù)和分配系數(shù))與生物活性之間的關系。這些研究主要集中在性質(zhì)與活性之間的關系上——最早的結(jié)構(gòu)-活性關系涉及局部解釋,分析了環(huán)上的取代基如何影響活性,這種分析可以通過子結(jié)構(gòu)分析推廣到許多不同的骨架。最終,計算機自動將分子結(jié)構(gòu)編碼為指紋——一種位向量,用于存儲分子中存在或缺失的多種子結(jié)構(gòu)。這些指紋在編碼分子結(jié)構(gòu)以預測簡單模型(如支持向量機)中的分子活性方面非常有用。

2.1.2 使用專家描述符表示分子

盡管化學家對官能團對分子性質(zhì)的影響有一定的概念理解,但將這些信息有效傳達給模型是確保模型具備預測能力的關鍵。專家描述符將來自實驗或理論知識的化學信息注入到模型特征中,并在數(shù)據(jù)量較少的情況下取得了良好的預測性能。這些專家描述符在模型訓練集之外也具有很好的泛化能力,因為這些特征蘊含了豐富的化學知識。早在1937年,哈米特(Hammett)就擬合了σ參數(shù),以預測化學取代基對反應性的影響。此外,組分貢獻方法假設結(jié)構(gòu)組件或功能化在許多不同分子中表現(xiàn)相同,將這些組件參數(shù)化為可用于預測分子性質(zhì)的數(shù)值特征。自那時起,該領域發(fā)展出了涉及分子指紋識別技術以及用于預測的二維和三維的信息。近年來,由于均相過渡金屬催化劑的性質(zhì)受到其附加配體強烈影響,因此對這些膦配體的結(jié)構(gòu)特征和電子特征進行參數(shù)化也在催化劑性質(zhì)預測方面取得了成功?;仡櫄v史模型,最近的研究還成功地利用密度泛函理論(DFT)和機器學習來學習哈米特(Hammett)參數(shù)。

2.1.3 學習化學表示

隨著計算硬件的進步,模型變得愈加復雜,從簡單的線性回歸模型發(fā)展到諸如自編碼器、生成對抗網(wǎng)絡、圖神經(jīng)網(wǎng)絡和變換器等復雜架構(gòu)。我們不再依賴化學家直觀判斷分子的最佳表示方式,而是可以利用模型自動學習并挖掘大量數(shù)據(jù)中的復雜模式,以進行性質(zhì)預測。在一定程度的抽象下,這種方法往往忽視三維信息或波函數(shù)特性,分子可以自然地表示為圖,其中原子是節(jié)點,鍵是邊。通過將指紋的概念從離散比特向量擴展到連續(xù)特征向量,我們提出了圖神經(jīng)網(wǎng)絡,以自動學習重要子結(jié)構(gòu)的連續(xù)表征,并在分子性質(zhì)預測任務中取得了最先進的性能。這些表征已廣泛應用于多個領域,例如用于分子的嗅覺性質(zhì)的機器學習,以及在催化中預測吸附物的吸附性質(zhì)。

雖然構(gòu)建圖所需的簡單原子特征和鍵特征可以迅速生成,但要進行預測的性質(zhì)卻更難以獲取,尤其是在高質(zhì)量和高準確度方面。由于學習到的表示通常需要大量的數(shù)據(jù),因此復雜的架構(gòu)在從典型實驗設置中收集到的少量數(shù)據(jù)上表現(xiàn)并不理想。為了填補這一空白,研究人員創(chuàng)建了分子基準,以便能夠正確評估這些學習到的表示的質(zhì)量。這些基準包含了來自文獻的數(shù)據(jù)任務,涉及預測生物行為以及物理化學性質(zhì)或量子化學性質(zhì),并提供了一個共同的平臺,使不同的機器學習架構(gòu)能夠以多種方式利用相同的數(shù)據(jù)進行性質(zhì)預測。

為了提升圖嵌入的性能,如果我們對如何調(diào)整嵌入空間以更好地反映輸入之間的距離有一些直觀理解,就可以進一步優(yōu)化這些嵌入。這可以包括一些策略,例如使嵌入意識到化學反應如何轉(zhuǎn)化這些嵌入,或者采用對比學習等方法。最后,對于那些對分子在三維空間中構(gòu)象敏感的任務,將三維表示與固有不足的二維圖結(jié)合起來,已被證明在預測分子性質(zhì)方面是有效的。

2.1.4 限制和未解決的問題

盡管分子機器學習取得了巨大進展,但是機器學習模型在超出其訓練數(shù)據(jù)范圍時的泛化能力仍然有限,這給在新型化學領域應用帶來了困難。有幾種方法可能有助于彌補這些差距。例如,可以使用物理信息模型,這些模型能夠包含一些基本表示,從而幫助模型更好地概括自身的表示,以滿足與自然物理法則相關的一些對稱性或特性。主動學習也是一種強大的工具,它可以通過捕獲計算或?qū)嶒灁?shù)據(jù)來動態(tài)擴展數(shù)據(jù)集,以實現(xiàn)外推。此外,雖然模型在性質(zhì)預測基準任務中的表現(xiàn)逐漸改善,但這些基準僅代表了化學任務的一個小子集,因此它們在其他具體任務上的表現(xiàn)仍不明確。盡管我們嘗試創(chuàng)建更具代表性的基準,但這仍然不是社區(qū)的主要關注點。

結(jié)構(gòu)-性質(zhì)模型已被廣泛應用于篩選項目中,并實現(xiàn)了一些經(jīng)過實驗驗證的預測。我們將在第2.2.1節(jié)中討論幾個精選案例研

2.2 從性質(zhì)到結(jié)構(gòu):設計分子的化學空間

理性設計范式分析了結(jié)構(gòu)與性質(zhì)之間的關系,以便設計出有前景的分子。而另一種范式提出的問題是:有哪些分子能夠滿足給定的性質(zhì)?解決這個問題被稱為逆向設計問題。

化學空間是所有可合成分子的集合,通常認為其規(guī)模龐大,至少有10^33到10^60個分子。在這片廣闊的空間中,潛在藥物可能治愈當前疾病,而某些假設材料則可能為實現(xiàn)可持續(xù)的未來提供支持。

2.2.1 虛擬篩選

在導航化學空間的過程中,一種簡單的方法是首先列出一系列可行的選擇,然后逐步縮減至最佳解決方案。為實現(xiàn)這種轉(zhuǎn)變,實驗上采用了高通量篩選和合成化學庫中化合物的組合化學等策略。考慮到化學空間的巨大規(guī)模,隨意搜索化合物只會產(chǎn)生少量有希望的結(jié)果,導致效率低下,因為廣泛的化學合成活動的成本往往是高昂的或受限的。這促使了虛擬篩選和計算搜索漏斗作為一種方法,以過濾出不太有可能的化合物,僅留下最佳的候選化合物進行合成和測試。在藥物發(fā)現(xiàn)中,計算機輔助的簡單篩選可以排除高分子量或帶有問題官能團的化合物,然后再進行更為計算密集的對接,以估計結(jié)合親和力,最終縮小到少數(shù)先導化合物。隨著虛擬庫規(guī)模的擴大增加了有希望結(jié)果出現(xiàn)的可能性,這推動了越來越大規(guī)模的篩選活動,同時也需要越來越多的計算資源。例如,在哈佛清潔能源項目中,我們通過分布式志愿者計算進行了量子化學計算,搜索了10^7^個候選分子以尋找高效的有機光伏材料。

類似地,VirtualFlow通過高效利用數(shù)千個CPU核心對超過10億個分子進行了對接。隨著化學庫規(guī)模的增長,所需的計算資源呈線性增加,而評估個別合成構(gòu)件適應性的分層方法為突破線性擴展提供了一種途徑。

2.2.2 生成模型的逆向設計

隨著化學庫的規(guī)模超過10^15個分子,篩選這些分子在計算上變得極為困難,機器學習(ML, Machine Learning)提供了一種在不模擬所有分子的情況下考慮大搜索空間的方法。例如,在一個化學庫中,許多分子應該具有相似的結(jié)構(gòu)和性質(zhì),因此對每個分子進行模擬是不必要的。處理這一問題的一種正式方法是先模擬庫中的一部分,然后在這個子集上訓練性質(zhì)預測模型,這些模型應能夠推廣到整個庫。由于這些性質(zhì)預測模型的計算成本低于模擬,因此可以對整個庫進行評估,并用于優(yōu)先選擇候選分子進行模擬。我們利用這一方法設計了經(jīng)過實驗驗證的有機發(fā)光二極管OLEDs)。

然而,機器學習的另一種方法則提供了一種考慮所有(或大部分)化學空間的方式。給定一個以SMILES字符串表示的分子數(shù)據(jù)集,生成模型學習生成與該數(shù)據(jù)集相似的字符串。由于生成模型可以考慮任意字符串,它們有潛力生成化學空間中的任何分子。同時,它們也可以被條件化,以生成具有所需性質(zhì)的分子——本質(zhì)上是逆轉(zhuǎn)性質(zhì)預測過程。分子生成模型已應用于多種模型類別,我們率先使用變分自編碼器(VAEs)來實現(xiàn)這一目的。其他例子包括自回歸模型、生成對抗網(wǎng)絡(GANs)和強化學習等眾多采樣策略。此外,生成模型還擴展到各種表示形式,如SMILES、SELFIES,以及分子圖和片段等。盡管遺傳算法和貝葉斯優(yōu)化等分子優(yōu)化方法有時也被稱為生成模型,但它們并不直接學習分子的分布。關于不同生成模型類別和表示形式的最新綜述可見于Gao等人的研究[2],盡管這一領域正在迅速地發(fā)展。

隨著越來越多的生成模型被提出,基準測試如GuacaMol和MOSES開始根據(jù)有效性、新穎性、獨特性以及目標導向優(yōu)化來評估和比較不同的生成模型。優(yōu)化已成為主要焦點,因此可以將分子設計視為在分子圖空間內(nèi)對其性質(zhì)進行組合優(yōu)化。在這種背景下,一個新的基準強調(diào)樣本效率,即達到最佳分子所需進行性質(zhì)評估的數(shù)量。此外,我們最近在Tartarus基準集中提出了更現(xiàn)實的基準任務,這些任務依賴于模擬,更加貼近計算資源和實驗資源受限的實際場景。

然而,當生成模型超越化學庫覆蓋整個化學空間時,它們放寬了合成性的關鍵約束。這意味著這些生成模型可能會產(chǎn)生一些難以合成和評估的分子。為了克服這個問題,可合成的生成模型在產(chǎn)生新分子時會考慮化學合成路徑,從而確保所產(chǎn)生的新型分子不僅理論上有效,而且在實踐中也是可合成的。另外,一些方法結(jié)合虛擬庫與生成技術,以確保提出的新型分子始終來自于已有庫。這些方法對于高通量陣列和自動化實驗室尤其重要,因為如果預測出的新型分子無法在現(xiàn)有平臺上合成,將可能延緩閉環(huán)方法的發(fā)展。

關于這些進展及當前領域內(nèi)最新動態(tài),Du等人提供了出色綜述,總結(jié)了該領域最新的發(fā)展與方法。[3]

近年來,生成模型已證明其價值。其中值得注意的是InSilico Medicine公司利用這些模型成功開發(fā)了幾種正在進行臨床試驗的新藥。在2019年,我們與InSilico及中國無錫藥明康德公司的研究人員共同展示了利用生成模型在約45天內(nèi)開發(fā)出領先藥物候選者的能力。從那時起,許多研究人員繼續(xù)展示其他使用生成模型進行藥物發(fā)現(xiàn)的新案例。例如,Barzilay及其同事采用類似的方法開發(fā)了抗生素。

2.2.3 限制和未解決的問題

雖然這樣的模型能夠輕松生成候選者,但候選者的質(zhì)量取決于能否開發(fā)出一個表現(xiàn)良好且可擴展的成本函數(shù),以對生成模型進行條件設置。此外,這些模型是基于近似度量進行訓練的,這意味著它們在實際應用中的表現(xiàn)仍需評估。因此,評估候選者的可合成性或提供生成候選者的具體步驟至關重要(見下一節(jié))。

大多數(shù)生成模型的開發(fā)通常以簡單的基準為目標,比如預測log P這樣簡單的性質(zhì)。然而,使用合適的基準(如Tartarus)進行開發(fā),或?qū)⑵湎拗圃诳珊铣傻姆肿蛹戏秶鷥?nèi),比如那些可以通過自動化實驗室合成的分子(參見第2.7節(jié)),仍然是一個挑戰(zhàn)。

2.3 從結(jié)構(gòu)到結(jié)構(gòu):合成規(guī)劃和反應條件預測

合成規(guī)劃——即尋找能夠生成理想目標分子的合成途徑——是化學家們在過去一個多世紀中面臨的一個持續(xù)挑戰(zhàn),尤其是在藥物發(fā)現(xiàn)、農(nóng)業(yè)化學或分子材料化學等“分子世界”領域。這個問題在兩個方面都非常復雜:首先,給定所有反應物、試劑和反應條件,預測特定未見反應的結(jié)果至今仍然是一個未解決的問題。其次,即使擁有這樣的“反應預測”工具,尋找可行的多步驟反應序列,以便最終從廉價且可商業(yè)獲得的前體合成目標分子,還需要在龐大的可能途徑網(wǎng)絡中進行搜索。此外,合成規(guī)劃問題還面臨來自實際需求的額外挑戰(zhàn):效率、成本、廢物產(chǎn)生、可持續(xù)性、安全性和毒性等都是在工業(yè)環(huán)境中特別需要關注的重要問題。

2.3.1 合成規(guī)劃

合成規(guī)劃通常采用逆合成的方法進行,這一方法由諾貝爾獎獲得者E.J. 科里首創(chuàng)。通過利用化學反應性的知識,將目標分子逐漸被分解為越來越簡單的前體,最終得到在市場上可購買的起始材料。形式上,這相當于一個樹搜索問題。早在1960年代,科里就意識到這種方法非常適合以計算方式進行處理。從那時起,已經(jīng)開發(fā)了多種專家系統(tǒng)來指導這一樹搜索過程。

在過去十年里,利用機器學習工具箱應對這一挑戰(zhàn)取得了顯著進展。在這種情況下,關鍵的“決策策略”通常被視為一個多任務回歸問題:給定目標分子的結(jié)構(gòu),訓練一個機器學習模型以預測從反應目錄中適用的反應。然而,這種符號化的方法需要一個預定義的包含所有反應類型的目錄,通常被稱為反應“規(guī)則”或“模板”,這本身又帶來了新的障礙。關于“反應規(guī)則”這一術語,并沒有一個普遍接受的定義,也沒有明確的程序來從數(shù)據(jù)中提取反應規(guī)則。另一方面,“無模板”的方法針對一步反應預測問題,將反應預測視為起始材料圖中的圖編輯,或者解決一個序列到序列的“產(chǎn)品到起始材料”的翻譯任務。值得注意的是,這些模型(無論是有模板還是無模板)可以在正向方向上進行類似的訓練,即從起始材料預測反應產(chǎn)物。

這些單步預測模型用于構(gòu)建樹搜索模型,以解決綜合規(guī)劃問題。在這種情況下,蒙特卡洛樹搜索(Monte-Carlo tree search)通常是首選方法。繼Segler等人的開創(chuàng)性工作和Coley等人的研究之后,就已經(jīng)發(fā)布了多個開源的系統(tǒng)。

2.3.2 反應條件的預測和優(yōu)化

在合成規(guī)劃中,常常被忽視的一點是,僅僅了解一種可能適用的反應類型,并不能保證所設想的中間體或目標產(chǎn)品能夠從提議的起始材料中成功合成。產(chǎn)品是否能夠獲得(理想情況下是高產(chǎn)率),在很大程度上取決于通常所稱的反應條件:試劑、催化劑、添加劑和溶劑的選擇,連續(xù)參數(shù)(如計量比、溫度和反應時間)的具體數(shù)值,以及實驗室中進行反應時的實際操作細節(jié)。在理想情況下,一個人工智能輔助工具可以接收一個新的“起始材料到產(chǎn)品”的轉(zhuǎn)化,并輸出所需的反應條件。然而,這一目標尚未實現(xiàn),主要原因在于反應條件涉及廣泛的組合參數(shù)空間,并且通常受到難以模擬的基本物理原理的影響。在實際操作中,反應條件往往通過基于文獻先例的“最近鄰推理”來選擇,這一過程可以是自動化完成,也可能依賴于人類專家的經(jīng)驗。

機器學習方法在反應條件優(yōu)化方面主要集中于將反應產(chǎn)率作為反應條件的函數(shù)進行回歸建模。在這一背景下,數(shù)據(jù)驅(qū)動方法與物理有機化學中的回歸技術相結(jié)合,試圖基于機理考慮來建模反應結(jié)果。在高度受限的條件空間中,利用高通量實驗系統(tǒng)生成的數(shù)據(jù)進行的純數(shù)據(jù)驅(qū)動監(jiān)督學習在產(chǎn)物產(chǎn)率方面顯示出了良好的效果。例如,我們在優(yōu)化與制藥工藝化學相關的反應E/Z比率的研究中發(fā)現(xiàn),僅通過約100次實驗,我們便超越了人類優(yōu)化這一過程時所達到的先進水平。同時,利用文獻數(shù)據(jù)進行相同目的的研究通常存在嚴重缺陷,這往往需要對每個案例進行單獨的反應優(yōu)化(更詳細的討論見下文)。在過去十年中,黑箱優(yōu)化算法,尤其是貝葉斯優(yōu)化(Bayesian Optimization, BO),變得越來越重要。在貝葉斯優(yōu)化中,通過對現(xiàn)有數(shù)據(jù)進行貝葉斯推斷來構(gòu)建用于預測反應產(chǎn)率的概率模型。這些模型在整個優(yōu)化過程中以迭代方式指導決策。而基于機器學習的替代模型進行迭代閉環(huán)優(yōu)化的方法將在第2.7節(jié)中進一步討論。對于條件優(yōu)化,這些迭代方法在日益復雜的合成反應場景中表現(xiàn)出顯著的效果。同時,化學領域的特定挑戰(zhàn),例如識別對多種底物“普遍適用”的條件,而不僅僅是針對一兩個模型底物的條件,也推動了該領域算法的發(fā)展。值得注意的是,我們在鈴木反應方面的研究使得條件具有普遍適用性,并且其產(chǎn)率是該領域之前先進水平的兩倍。

2.3.3 限制和未解決的問題

盡管在過去十年中,基于機器學習的合成規(guī)劃領域取得了顯著的算法進展,但其實際應用仍然局限于開發(fā)相對簡單的目標分子和短的合成路線。事實上,目前專家系統(tǒng)(即手動編碼反應類型和適用規(guī)則的系統(tǒng))仍然是計算機輔助合成規(guī)劃的最先進水平。特別是,Grzybowski 的 Chematica 系統(tǒng)(現(xiàn)已商業(yè)化為 Synthia)在復雜自然產(chǎn)品合成或供應鏈意識的合成規(guī)劃中展現(xiàn)了令人矚目的實驗應用。原則上,基于機器學習的算法應該能夠提供與這些專家系統(tǒng)相似或更優(yōu)的合成路線,但目前存在的問題主要歸因于可用合成數(shù)據(jù)質(zhì)量和數(shù)量上的不足,以及從數(shù)據(jù)中提取結(jié)構(gòu)化知識時所面臨的算法限制。我們和其他研究者最近對此進行了廣泛討論。

在反應結(jié)果和反應條件預測的背景下,類似的數(shù)據(jù)限制問題也被討論過。專利數(shù)據(jù)以及商業(yè)數(shù)據(jù)庫在數(shù)據(jù)報告的準確性、一致性或結(jié)構(gòu)化方面存在嚴重問題,這不僅是由于錯誤數(shù)據(jù)、不一致數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)的存在,還因為在報告的實驗中,人類偏見的影響,特別是對顯著條件的偏重和對低產(chǎn)率記錄的忽視,這些因素阻礙了從文獻數(shù)據(jù)中進行反應產(chǎn)率預測建模。社區(qū)驅(qū)動的開源數(shù)據(jù)庫,例如開放反應數(shù)據(jù)庫(Open Reaction Database),代表了朝著更少偏見和更全面的數(shù)據(jù)收集邁出的重要一步——但這樣的倡議需要在合成有機化學實驗室中采用更為數(shù)字化的思維方式,以便更好地生成、收集和報告數(shù)據(jù)。

數(shù)據(jù)不足的另一個后果是缺少具有代表性的基準問題集。這種情況尤其適用于多步驟合成規(guī)劃領域,在該領域中,迫切需要基準來進行合成規(guī)劃性能的更為定量的評估。同樣,化學反應性優(yōu)化算法也需要具有代表性的基準,以評估標準貝葉斯優(yōu)化算法如何適應化學反應性的復雜性。最重要的是,這些基準必須反映專家化學家所識別的現(xiàn)實問題,以激勵和推動算法機器學習的進展,從而應對計算機輔助有機合成中的挑戰(zhàn)。

2.4 物理結(jié)構(gòu):模擬和三維結(jié)構(gòu)

機器學習使得數(shù)據(jù)驅(qū)動的解決方案能夠應用于實驗問題和計算問題。在有機化學中,分子的2D分子圖結(jié)構(gòu)是重點,而通過薛定諤方程,分子又建立在3D物理現(xiàn)實之上,這為預測分子性質(zhì)和相互作用提供了豐富的量子力學和統(tǒng)計力學理論。模擬方法如密度泛函理論(DFT)和分子動力學(MD)可以利用這些理論來計算并預測分子的性質(zhì)和相互作用。然而,盡管計算能力不斷提升,這些模擬仍然計算成本高,這限制了它們只能在小系統(tǒng)和短時間尺度下進行。而通過從眾多模擬結(jié)果中學習,機器學習提供了一個獨特的機會來加速分子模擬。

2.4.1 神經(jīng)網(wǎng)絡勢

量子化學中的一個基本問題是:對于給定一個分子,其在三維空間中表示為一組核點,如何求解薛定諤方程,并預測總能量及每個原子所受的力。力的計算使我們能夠利用牛頓方程進行向前推進的動態(tài)模擬。然而,對于分子系統(tǒng)而言,求解薛定諤方程既復雜又計算成本高昂,而模擬牛頓方程則需要在每個模擬幀上計算力。因此,科學家們通過將簡單函數(shù)擬合到實驗數(shù)據(jù)來近似這些力,從而產(chǎn)生了第一個參數(shù)化力場,例如倫納德-瓊斯勢。半經(jīng)驗模型結(jié)合了更多實驗擬合參數(shù),以便更準確地預測能量和力。這些經(jīng)驗力場使得經(jīng)典分子動力學模擬成為可能,從而可以研究簡單的蛋白質(zhì)。然而,要捕捉像化學反應性這樣的行為,則需要考慮量子效應。隨著計算能力的提升以及更快的模擬方法(如密度泛函理論(DFT))的出現(xiàn),最終使得在每個時間步上使用從頭分子動力學求解薛定諤方程成為可能,但這需要付出巨大的計算成本。

神經(jīng)力場的引入帶來了顯著變化。通過對密度泛函理論(DFT)數(shù)據(jù)進行訓練,神經(jīng)網(wǎng)絡能夠直接從三維核坐標預測能量和分子力,這使得分子動力學可以以從頭計算的精度進行模擬,同時大幅降低了計算成本。由于分子力必須對分子的旋轉(zhuǎn)保持等變性——也就是說,如果分子被旋轉(zhuǎn),分子力也必須“隨之旋轉(zhuǎn)”——這促使了保持這種對稱性的等變神經(jīng)架構(gòu)的發(fā)展。在機器學習領域,神經(jīng)力場經(jīng)過了競爭性的基準測試,不斷比較不同的架構(gòu)和方法。Duval等人提供了這些等變架構(gòu)發(fā)展的詳細時間線。[4]隨著能量和力的數(shù)據(jù)集不斷增長,例如開放催化基準,神經(jīng)力場也開始追求普適性了。

2.4.2 預測波函數(shù)和電子密度

相較于使用力場來預測能量,另一種預測能量的方法是直接預測波函數(shù)或電子密度。這種方法的優(yōu)勢在于,波函數(shù)和電子密度不僅包含了能量信息,還涵蓋了系統(tǒng)的其他物理可觀測量。例如,可以訓練神經(jīng)網(wǎng)絡直接根據(jù)核坐標來預測哈密頓矩陣。對哈密頓矩陣進行對角化可以得到分子軌道,而這些分子軌道則構(gòu)成了波函數(shù)。此外,可以利用預測的波函數(shù)來初始化自洽場迭代,從而加快量子化學計算的收斂速度。最近的研究表明,神經(jīng)網(wǎng)絡可以被訓練,使其輸出滿足自洽性方程,這樣就不再需要哈密頓矩陣的標簽了。

此外,神經(jīng)網(wǎng)絡還可以作為假設形式,直接表示波函數(shù)。在這種情況下,網(wǎng)絡以電子坐標為輸入,并輸出波函數(shù)幅度。采用相同的隨機優(yōu)化算法,神經(jīng)波函數(shù)可以被訓練以最小化變分能量并滿足薛定諤方程。這種方法最近也擴展到了激發(fā)態(tài)。

另一方面,在密度泛函理論中,也可以訓練神經(jīng)網(wǎng)絡直接根據(jù)給定的核坐標來預測電荷密度。同時,機器學習也被應用于學習密度泛函。

2.4.3 預測和生成3D結(jié)構(gòu)

即使存在快速準確的力場,許多問題仍然依賴于找到分子的能量優(yōu)先構(gòu)象。然而,構(gòu)象空間依然非常龐大,特別是對于大型體系如蛋白質(zhì)而言,實際上是無法窮盡的。同樣,在建?;瘜W反應時,龐大的構(gòu)象搜索空間使得識別過渡態(tài)變得具有挑戰(zhàn)。為解決這些問題,機器學習方法可以直接預測和生成3D結(jié)構(gòu)。

大規(guī)模構(gòu)象搜索空間的復雜性促使生成模型用于引導這一空間的探索。無條件生成模型,如等變擴散模型,能夠同時生成3D原子位置和原子類型。在解決尋找給定分子穩(wěn)定的3D構(gòu)象問題時,原子類型可能保持不變,生成則是基于2D分子圖的條件。一些方法可自由生成原子位置,而其他方法則生成可旋轉(zhuǎn)鍵的扭轉(zhuǎn)角度。最近的研究顯示,放棄扭轉(zhuǎn)和旋轉(zhuǎn)對稱約束可能帶來更好的結(jié)果,盡管成本更高。有一個相關的任務被稱為對接,即在蛋白質(zhì)口袋內(nèi)進行配體的構(gòu)象搜索,以評估結(jié)合親和力。這一過程也已經(jīng)使用擴散模型來來研究了。

在晶體結(jié)構(gòu)預測問題中,目標是找到給定組成的最穩(wěn)定周期性原子排列方式。傳統(tǒng)方法是通過搜索所有穩(wěn)定的原子坐標和晶格矢量的排列組合來找到能量最低的結(jié)構(gòu)。而等變擴散模型則為這一問題提供了自然的解決方案,它可以同時擴散坐標和晶格參數(shù),并強加空間群約束以進一步提升性能。實際上,將這種擴散方法擴展到大型數(shù)據(jù)集,使逆向設計能夠同時滿足多個期望的性質(zhì)。

在與生物分子模擬相關的領域中,三維結(jié)構(gòu)預測問題普遍存在。長期以來,從蛋白質(zhì)序列預測折疊的三維蛋白質(zhì)結(jié)構(gòu)這一難題在一定程度上已通過AlphaFold及相關模型得到了有效解決。在此基礎上,擴散模型生成了以剛性殘基序列表示的蛋白質(zhì)骨架。這些模型取得了顯著成功,甚至被用于設計滿足結(jié)構(gòu)約束的蛋白質(zhì),并經(jīng)過了實驗驗證。這些擴散模型的應用范圍已擴展到所有生物分子,其方法能夠預測蛋白質(zhì)、RNA、DNA和配體如何在三維原子細節(jié)中的組裝方式,從而涵蓋了對接任務,因此有望在未來成為藥物發(fā)現(xiàn)的重要工具。

2.4.4 增強采樣和粗粒化模擬

尋找最穩(wěn)定的幾何形狀固然有其價值,但要真正模擬分子之間的熱力學相互作用,則需要對三維結(jié)構(gòu)的平衡分布進行采樣。平衡態(tài)遵循與能量相關的Boltzmann分布,而學習這種平衡分布的生成模型被稱為Boltzmann生成器。深度生成模型開始通過流匹配這一擴散模型的變體來解決這個問題,并且已經(jīng)在多種不同類型的肽中證明了其可轉(zhuǎn)移性。另一種方法則是利用??栓C普朗克方程來學習如何采樣平衡分布。

在粗?;^程中,通常將原子聚集成所謂的珠子,這樣就可以降低計算成本,并且能夠捕捉到長時間尺度的事件。然而,這些粗粒化珠子的力需要與全原子力進行擬合。為了解決這個問題,可以應用神經(jīng)網(wǎng)絡來學習粗?;?,通過預測自由能的梯度,而不是能量,并將這些預測的力與全原子力進行匹配。而使用流匹配方法則消除了對全原子力的需求,僅需粗?;樽拥钠胶鈽颖炯纯?。此外,擴散模型可以同時學習生成模型和粗?;?。

雖然粗粒化力場的評估速度明顯快于原子級力場,但分子動力學模擬仍然受到必須使用飛秒級積分時間步長的限制。為了解決這一問題,平衡方法的替代方案主要集中在加速分子動力學,以實現(xiàn)更長的時間尺度。

這可以通過“時間粗?;眮韺崿F(xiàn),即訓練生成模型以預測在較大時間步長下的結(jié)果。此外,研究還致力于將模型擴展到多個熱力學性質(zhì)范圍,如溫度和壓力。這使得能夠模擬不同環(huán)境,并對之前不適合的數(shù)據(jù)進行訓練。通過在模型輸入中添加溫度等額外參數(shù),可以將相應的粗?;杂赡芎瘮?shù)的導數(shù)納入損失函數(shù)中。而自由能的高階導數(shù)作為響應性質(zhì),可以通過多次反向傳播計算得到。因此整合熱力學參數(shù)可能是整體模擬生物或工業(yè)環(huán)境的重要因素之一。

對于稀有事件采樣,例如化學反應和過渡態(tài)搜索,已經(jīng)出現(xiàn)了無反應坐標的過渡路徑采樣方法。另一方面,當反應物、產(chǎn)物和過渡態(tài)的數(shù)據(jù)集可用時,可以直接訓練生成模型,進而可以基于反應物和產(chǎn)物生成過渡態(tài)。

2.4.5 限制和未解決的問題

雖然神經(jīng)力場可以達到很高的準確性,但它們?nèi)匀恍枰銐虻挠柧殧?shù)據(jù)來覆蓋整個相空間。如果沒有完全覆蓋,神經(jīng)力場可能會陷入不穩(wěn)定的動力學狀態(tài)。一項基準測試強調(diào),評估力場的標準應基于其動力學表現(xiàn),而非力的誤差。

然而,隨著神經(jīng)力在越來越大數(shù)據(jù)集上的訓練,這些問題可能會逐漸得到解決,從而推動通用力場的發(fā)展。盡管機器學習模型受限于數(shù)據(jù)質(zhì)量,但新數(shù)據(jù)可以通過模擬生成,這為數(shù)據(jù)可用性和大型模型的發(fā)展帶來了樂觀前景。

與此同時,要在大長度和時間尺度上進行有效模擬仍需大量工作。在亞穩(wěn)態(tài)條件下進行適當平衡采樣面臨著重大挑戰(zhàn),相關的稀有事件采樣問題也依然是亟待改進的領域,因此成為了近期眾多研究工作的重點。

2.5 結(jié)構(gòu)和分析:光譜學和結(jié)構(gòu)解析

在化學領域,一個自然而又未被充分利用的機遇是利用機器學習來進行結(jié)構(gòu)解析,它旨在通過光譜或其他分析數(shù)據(jù)預測二維或三維分子結(jié)構(gòu)。就像計算機視覺使得計算機能夠感知自然界一樣,計算光譜學也可以讓機器通過分析儀器感知分子世界。隨著實驗自動化技術的進步,預計將合成越來越多的從頭合成和未知的化合物,這推動了對更快且準確的結(jié)構(gòu)解析需求,以充分支持這些自主分子發(fā)現(xiàn)和反應發(fā)現(xiàn)平臺。

2.5.1 正向光譜預測

數(shù)據(jù)驅(qū)動的結(jié)構(gòu)闡明最直接的方式是存儲一個光譜庫,針對給定的光譜在庫中搜索匹配項,然后檢索相應的結(jié)構(gòu)。為了擴大光譜庫的覆蓋范圍,可以使用前向光譜預測來為特定化學結(jié)構(gòu)預測其光譜。盡管物理模擬提供了一種有根據(jù)的方法來預測光譜,但其過程往往復雜且計算成本高昂。另一種方法則是利用機器學習從結(jié)構(gòu)出發(fā)預測各種類型的光譜,包括質(zhì)譜(MS)、核磁共振(NMR)和紫外-可見光譜(UV-vis)。一些研究將前向預測問題視為公式預測,采用自回歸模型或固定的公式詞匯;而另一些研究則專注于子圖預測,利用遞歸分解、自回歸生成和深度概率模型,或結(jié)合三維結(jié)構(gòu)信息。在質(zhì)譜的背景下,一些方法將光譜近似為具有相應峰強度的離散區(qū)間,從而簡化問題,將其轉(zhuǎn)化為直接從結(jié)構(gòu)回歸質(zhì)譜的任務。除了結(jié)構(gòu)到光譜的預測外,另一種方法涉及通過估計各種分子描述符來預測結(jié)構(gòu)-性質(zhì)關系——這些描述符可以是標量(例如能量、部分電荷)、向量(例如電偶極子、原子力)以及高階張量(例如Hessian矩陣、極化率、八極矩)——然后利用這些描述符來預測不同類型的光譜,包括紅外光譜、拉曼光譜、紫外-可見光譜和核磁共振。

2.5.2 結(jié)構(gòu)解析

直接從給定光譜預測化學結(jié)構(gòu)的過程被稱為逆問題。DENDRAL是第一個用于從質(zhì)譜推斷化學結(jié)構(gòu)的專家系統(tǒng),誕生于1969年。化學家們還利用機器學習(ML)分析紅外光譜(IR)、核磁共振(NMR)和質(zhì)譜,以識別有限的官能團。雖然這些方法提供了有用的結(jié)構(gòu)見解,但它們無法完全解析分子結(jié)構(gòu)。

結(jié)合多個推斷出的官能團的信息,使得結(jié)構(gòu)解析成為可能。對于NMR數(shù)據(jù),分子結(jié)構(gòu)可以通過首先識別分子亞結(jié)構(gòu)和官能團來進行解析,然后通過波束搜索在可能的配置中進行最優(yōu)組合,或者逐個原子構(gòu)建,這與化學家在解釋NMR光譜時采取的方法相似。類似的“亞結(jié)構(gòu)重建”策略也在紅外光譜和表面增強拉曼光譜(SERS)中以不同程度的細節(jié)應用。然而,隨著原子數(shù)量的增加,這種方法很快會遇到組合規(guī)模問題。

分子結(jié)構(gòu)解析可以從深度學習的角度將其視作為一個端到端的問題。在這種方法中,光譜被標記為字符串,并預測SMILES字符串;這可以視為一種機器翻譯任務。這種方法已經(jīng)應用于核磁共振(NMR)、紅外光譜(IR)和串聯(lián)質(zhì)譜(MS/MS)數(shù)據(jù)中了,顯示出來在擴展到更大化學系統(tǒng)和從頭結(jié)構(gòu)解析方面具有更顯著的潛力。此外,結(jié)構(gòu)預測問題也可以被表述為一個優(yōu)化任務,例如,可以將其形式化為馬爾可夫決策過程。如果我們考慮一些關于當前化學系統(tǒng)的先驗信息,如化學式、已知的起始材料和反應條件,將這些信息作為約束條件應用,就可以幫助模型更有效地收斂到一個解決方案。

隨著研究的深入,從分子到晶體的轉(zhuǎn)變,解決粉末X射線衍射(PXRD)和X射線吸收近邊結(jié)構(gòu)(XANES)等X射線光譜數(shù)據(jù)的逆問題,為機器學習領域帶來了新的挑戰(zhàn)。這為不同深度學習模型在晶體系統(tǒng)和空間群識別中的應用提供了獨特且尚未充分開發(fā)的機會。特別是,擴散模型展現(xiàn)出了良好的前景,尤其是在文本到圖像生成這一對應逆問題中的成功應用。在這個背景下,我們可以在文本與光譜之間,以及圖像生成與晶體結(jié)構(gòu)預測之間建立類比。

在旋轉(zhuǎn)光譜學領域,光譜分配的挑戰(zhàn)——即從密集的旋轉(zhuǎn)光譜中推導旋轉(zhuǎn)常數(shù)——代表了機器學習在這一領域早期應用之一。由于光譜密集且易于模擬,這個問題特別適合深度學習技術。然而,僅依靠旋轉(zhuǎn)常數(shù)無法確定分子的三維結(jié)構(gòu)。我們最近提出的方法通過推斷三維結(jié)構(gòu)來解決這一問題,所需的信息包括分子式、旋轉(zhuǎn)常數(shù)以及稱為替代坐標的無符號原子笛卡爾坐標。

在結(jié)構(gòu)生物學領域,蛋白質(zhì)結(jié)構(gòu)預測的進展與冷凍電子顯微鏡技術的發(fā)展相輔相成。利用冷凍電子顯微鏡重建蛋白質(zhì)結(jié)構(gòu)的過程已經(jīng)采用了深度生成模型。這些方法已發(fā)展到能夠從冷凍電子斷層成像(cryo-ET)中重建生物分子動態(tài)的程度。利用冷凍電子顯微鏡進行的結(jié)構(gòu)解析工作也在不斷取得日新月異的進展。此外,數(shù)據(jù)處理方面的進步使得分辨率得到了顯著提升,而這些改進都可以通過使用機器學習方法進一步增強。

2.5.3 限制和未解決的問題

與所有需要大量數(shù)據(jù)的方法一樣,一個關鍵問題始終存在:雖然可以獲得大量的模擬光譜,但考慮模型在實驗光譜上的表現(xiàn)是否令人滿意至關重要,因為實驗光譜往往表現(xiàn)出更大的變異性和不一致性。一個值得思考的問題是:科學界是否應該更加努力推動將原始光譜文件存放在開放數(shù)據(jù)庫中,以促進深度學習在從自動化光譜到結(jié)構(gòu)解析中的應用?

對于逆向光譜到結(jié)構(gòu)解析的工作中,雖然純樣品的自主分子結(jié)構(gòu)確定無疑對高通量反應優(yōu)化和發(fā)現(xiàn)活動至關重要,但同樣重要的是解決來自復雜混合物的光譜結(jié)構(gòu)的注釋問題,這包括對特定目標化合物的定向識別和非定向代謝組學。這類混合物在實際樣本矩陣中是常見配置,對于生物診斷、法醫(yī)學等多個領域都是不可或缺的。這些任務的成功在很大程度上依賴于模型從復雜的數(shù)據(jù)中解開并分離出單個分子光譜特征的能力。機器學習擅長處理復雜、高維數(shù)據(jù),因此非常適合處理這些具有挑戰(zhàn)性的任務。此外,利用機器學習方法集成來自多個光譜輸入的信息,可以進一步提高結(jié)構(gòu)解析的準確性和完整性。

2.6 利用基礎化學模型實現(xiàn)規(guī)模效益

隨著計算能力的提升,機器學習模型已經(jīng)在越來越大規(guī)模的數(shù)據(jù)集上進行了訓練。在大規(guī)模應用中,機器學習展現(xiàn)出不同層次的能力。而基礎模型是經(jīng)過廣泛數(shù)據(jù)訓練的大規(guī)模模型,能夠應用于多種下游任務。一些通用基礎模型,如ChatGPT、Gemini和Llama,通常用于語言生成和圖像生成;其中許多模型僅針對語言進行訓練,或者是在多模態(tài)上進行訓練。然而,在化學領域使用這些模型面臨著獨特的挑戰(zhàn),因此許多研究者選擇從頭開始在化學數(shù)據(jù)上訓練他們的模型,但這并非易事。在本節(jié)中,我們將探討化學領域基礎模型的現(xiàn)狀,并提出對尚未解決問題的看法。

2.6.1 通過大型語言模型和智能體進行知識轉(zhuǎn)換

一些最早將生成模型應用于化學的研究是通過語言實現(xiàn)的,這得益于分子可以使用SMILES表示法以字符串形式進行表示。早期的化學語言模型是通過無監(jiān)督學習對SMILES表示進行訓練的,它學習了分子子片段之間的依賴關系。最近,這些模型也開始同時在其他以文本標記表示的分子形式上進行訓練,例如文本描述、科學論文和合成程序,它們通常采用自回歸損失,以便在推理時能夠生成分子的描述或結(jié)構(gòu)。Ramos等人撰寫了一篇綜合性綜述[5],詳細介紹了迄今為止80個化學/生物化學語言模型,以供讀者進一步了解。將文本描述納入模型的一個動機是,它們包含有關分子功能性質(zhì)的信息,這對于改善結(jié)構(gòu)相似但功能不同的分子的嵌入表示非常有幫助,反之亦然。這些文本描述還讓用戶能夠使用自然語言與模型互動,這比起僵硬的查詢方式對許多用戶來說更加直觀。此外,大型語言模型(LLMs)還被用于科學文獻解析,促進從現(xiàn)有文獻中提取化學信息并構(gòu)建知識數(shù)據(jù)庫。這些數(shù)據(jù)庫可用于對LLMs進行微調(diào),有潛力提升自動化實驗室在生成和篩選方面的能力。

然而,使用這些模型進行開箱即用的發(fā)現(xiàn)任務或特定領域的化學應用仍存在一定差距(至少根據(jù)我們的了解)。造成這種情況的原因之一是,缺乏足夠的數(shù)據(jù)來以與GPT-4等模型在網(wǎng)絡規(guī)模文本和圖像上訓練相同的方式對這些模型進行訓練。利用這些具備化學知識的語言模型的一種方法是對其進行微調(diào),以適應下游任務,或者將其嵌入到優(yōu)化框架或搜索框架中,從而提供良好的先驗知識。其他研究也開始了探索模型和數(shù)據(jù)的擴展。

化學感知基礎模型的一個有趣應用是開發(fā)化學智能體,這些智能體能夠利用解決化學問題所需的工具,或規(guī)劃化學實驗。一些顯著的例子包括ChemCrow、Coscientist、我們自己的ORGANA和ChemReasoner。這些智能體可以訪問各種與化學相關的工具,如模擬器或機器人,以執(zhí)行化學實驗,并使用大語言模型(例如GPT-4)作為中央?yún)f(xié)調(diào)者,決定何時以及如何使用這些工具來實現(xiàn)用戶指定的目標。此類智能體的一個長期目標是開發(fā)科學助手,幫助進行更復雜的推理和規(guī)劃,通過自主生成和完善假設,超越單純的計算和執(zhí)行。AI科學家將這一理念擴展到了其他研究領域,展示了通過執(zhí)行實驗和撰寫研究論文進行自主機器學習研究的能力。

這些研究領域仍處于起步階段,因此存在幾個未解的問題,包括:(1)我們?nèi)绾斡行У卦u估化學感知大語言模型(chemistry-aware LLMs)/智能體(agents)?(2)這些模型在化學家實際工作中的使用案例是什么?有效的模型評估主要依賴于開發(fā)有意義的任務,而這在數(shù)據(jù)集的規(guī)模和廣度上目前仍然是一個開放性問題。雖然在這一領域已經(jīng)存在幾個基準測試,這為我們提供了一個良好的起點,但在數(shù)據(jù)質(zhì)量和任務目標方面仍有改進空間。最近發(fā)布的一些基準測試更接近實際應用,同時,像Polaris這樣的平臺使研究人員能夠更快速地訪問各種數(shù)據(jù)集。然而,在這一領域使用次優(yōu)基準測試的問題因當前機器學習環(huán)境而加劇,因為基準測試主要用于展示新方法相較于現(xiàn)有最優(yōu)技術所取得的更好表現(xiàn),但人們并不理解其改進的原因。這也為化學家與機器學習領域?qū)<疑鐓^(qū)之間合作的提供了一個絕佳機會。

基于語言的基礎模型也被應用于其他領域,包括知識圖譜生成和從化學文獻中進行知識提取,其中還包括我們在反應圖解析方面的工作,這是一項具有挑戰(zhàn)性的任務。這些努力對于創(chuàng)建結(jié)構(gòu)化的實驗程序數(shù)據(jù)庫是至關重要的,這些數(shù)據(jù)庫可以為現(xiàn)有的資源庫做出貢獻,例如之前提到的開放反應數(shù)據(jù)庫。

2.6.2 基礎物理模型

雖然僅語言基礎模型在化學領域受到廣泛關注,但研究表明,語言可能并不是唯一有效的手段,特別是在三維幾何結(jié)構(gòu)至關重要的情況下。例如,Alampara等人顯示,僅依靠語言模型無法編碼表示特定材料屬性所需的結(jié)構(gòu)信息。

然而,在生物化學科學中,語言模型并不是唯一開發(fā)的基礎模型。在已經(jīng)構(gòu)建了幾種模型中,這些模型能夠?qū)α鲞M行普遍近似,并預測任何分子、材料或蛋白質(zhì)的結(jié)構(gòu)。或許最著名的例子是用于蛋白質(zhì)結(jié)構(gòu)預測的AlphaFold2,以及最近推出的AlphaFold3,該模型能夠根據(jù)任何一組二維生物分子預測它們在三維中的組裝方式。據(jù)我們了解,這些模型在許多結(jié)構(gòu)和功能任務中仍然優(yōu)于任何基于序列的蛋白質(zhì)預測模型,尤其是在輸入序列在訓練數(shù)據(jù)中沒有同源物的情況下。

另一個引人注目的例子是最近推出的基礎模型MACE-MP-0,該模型采用了MACE等變架構(gòu)。其MACE-MP-0模型在150,000個無機晶體上進行了訓練。在經(jīng)過少量特定任務示例的微調(diào)后,它可以作為力場用于多種任務的模擬,甚至包括一些看似毫不相關的小蛋白質(zhì)模擬。值得注意的是,MACE-MP-0中的分子間相互作用似乎存在一定的不明確性。例如,在前面提到的蛋白質(zhì)模擬中,該模型能夠成功捕捉氫轉(zhuǎn)移,這是一項顯著的成就。然而,作者也選擇加入了源自經(jīng)典計算化學的D3色散,這表明該模型在預測長程相互作用方面仍然需要一些幫助。值得一提的是,基礎力場的研究也正在持續(xù)擴展,如工業(yè)研究實驗室正在越來越大的數(shù)據(jù)集上訓練神經(jīng)力場,例如GNoME和MatterSim。

從這些模型中得出的一個關鍵結(jié)論是,結(jié)構(gòu)信息不應被忽視,這取決于模型所應用的下游任務。同時,在廣泛的大規(guī)模數(shù)據(jù)集上訓練模型(即超越僅在單一預測任務上訓練簡單模型的傳統(tǒng),這在幾年前仍然是常態(tài))可以更好地推廣到更多的下游設置中。我們認為,同時在多個模態(tài)上進行擴展對于構(gòu)建化學領域中最佳的基礎模型至關重要——即盡可能多地在各種模態(tài)上訓練模型,例如三維結(jié)構(gòu)信息、文本和光譜信息。

2.6.3 限制和未解決的問題

在領域科學的研究中,我們在數(shù)據(jù)條件上并不如自然語言或圖像領域那樣優(yōu)越,因為后者已經(jīng)擁有了網(wǎng)絡級的數(shù)據(jù)可供利用。而科學數(shù)據(jù)則相對稀缺;每一個數(shù)據(jù)點必須通過實驗獲得,或者是通過高質(zhì)量的模擬得出的。如果采用模擬方法,模型必須找到將其結(jié)果轉(zhuǎn)化為特定實驗條件的方法。我們懷疑,跨化學領域的通用模型仍然需要十年的時間才能實現(xiàn),并且隨著人類對這些模型需求的不斷增加,這一目標可能會變得更加難以捉摸。這就像擴寬高速公路的問題一樣,許多分析師已經(jīng)表明,一旦道路被擴寬,由于其可用性而產(chǎn)生的額外需求會立即導致高速公路交通擁堵。

2.7 閉環(huán)優(yōu)化和自動化實驗室

2.7.1 自動化實驗室

隨著機器學習應用的不斷發(fā)展,高質(zhì)量數(shù)據(jù)的必要性和稀缺性變得愈加明顯?;瘜W數(shù)字化的興起以及機器學習的進步,為將機器學習與通過機器人實驗進行自動數(shù)據(jù)生成相結(jié)合奠定了基礎。這種協(xié)同作用催生了自動化實驗室(SDL)的概念。自驅(qū)動實驗室主要由兩個關鍵組成部分構(gòu)成:自動化實驗室設備和實驗規(guī)劃者,這兩者都利用機器學習技術來提升其功能。最終目標是自主執(zhí)行科學方法,包括假設生成(機器學習)、假設測試(實驗)和假設細化(機器學習),從而以數(shù)據(jù)高效的方式探索廣闊的設計空間。

通過將機器學習與計算機視覺相結(jié)合,自動化實驗室設備取得了顯著進展,形成了“通用化學機器人”的概念。這些經(jīng)過機器學習訓練的機器人能夠基于外部反饋做出決策,從而實現(xiàn)傳統(tǒng)上由人類化學家執(zhí)行的化學操作的動態(tài)自動化。鑒于在基于外部反饋進行主動決策的機器人設備訓練中固有的挑戰(zhàn),該領域的一個顯著創(chuàng)新是利用數(shù)字孿生體——實驗室設置的虛擬復制品——為加速機器人機器學習模型的訓練提供了堅實的框架。這些數(shù)字孿生技術通過高精度模擬化學場景,建立了一個真實的反饋機制,加速了模型的學習過程。

在實驗規(guī)劃方面,啟發(fā)式技術正在逐步被機器學習優(yōu)化算法所取代。當這些優(yōu)化技術與化學數(shù)字化相結(jié)合時,它們能夠識別目標化學物質(zhì)并優(yōu)化反應條件,同時顯著減少所需的實驗步驟。在各種機器學習優(yōu)化技術中,貝葉斯優(yōu)化因其在化學應用中的成功而在實驗化學領域尤為突出?;跈C器學習的代理模型能夠預測化學物質(zhì)和反應的性質(zhì),這在過程優(yōu)化和材料發(fā)現(xiàn)中發(fā)揮了重要作用,并且已有許多成功案例記錄。

此外,大型語言模型(LLMs)的興起進一步增強了自動化實驗室(SDLs)的輔助組件。而大型語言模型被有效地用于創(chuàng)建無需傳統(tǒng)編碼的人機界面,使得化學家與實驗室系統(tǒng)之間的交流更加自然。這對于那些不太擅長編碼或數(shù)據(jù)處理的用戶來說,是一個顯著的優(yōu)勢。

2.7.2 限制和未解決的問題

正如我們最近討論的那樣,自動化實驗室系統(tǒng)面臨的挑戰(zhàn)大致可分為兩大類:自動化(硬件相關)和智能化(人工智能相關)。

自動化挑戰(zhàn)。主要的硬件挑戰(zhàn)源于化學儀器設計時更偏向人性化設計,并未考慮自動化需求,以及與現(xiàn)有自動化模塊之間缺乏無縫連接。因此,大多數(shù)自動化實驗室系統(tǒng)是以半自動方式運行的,需要人工干預進行諸如樣品轉(zhuǎn)移、維護和故障排除等任務。已經(jīng)提出了各種解決方案來解決這些問題,包括部署移動機器人進行樣品轉(zhuǎn)移,以及調(diào)整通用機器人來執(zhí)行化學任務或操作最初設計用于人類使用的儀器。然而,這些方法大都依賴于傳統(tǒng)算法,需要靜態(tài)校準,因此并不太適合自動化實驗室系統(tǒng)的動態(tài)特性。雖然已經(jīng)提出了將計算機視覺和人工智能相結(jié)合作為解決方案,但實驗室設備,特別是玻璃器皿,仍然面臨顯著的挑戰(zhàn),不過這些挑戰(zhàn)正在逐漸得到解決。

認知挑戰(zhàn)。認知挑戰(zhàn)主要在于開發(fā)能夠準確估計系統(tǒng)輸出的模型,這一困難限制了更通用生成模型的應用,有效地降低了實驗規(guī)劃者在化學領域中所能探索的空間。結(jié)合前面提到的挑戰(zhàn),一個明顯的問題就是:SDLs通常在數(shù)據(jù)匱乏情況下運行。而預測和生成的機器學習模型通常需要大規(guī)模的數(shù)據(jù)集才能做出有意義的預測。雖然生成模型可以在現(xiàn)有數(shù)據(jù)上進行訓練,但在這種低數(shù)據(jù)情境中部署預測算法仍然是一個重大挑戰(zhàn)。

輔助組件的挑戰(zhàn)。在關于自動化實驗室系統(tǒng)的輔助組件方面,LLM的整合顯示出在自動化工作流程創(chuàng)建和改善人機交互方面具有潛力。然而,需要進一步研究以確保這些過程的安全性和可靠性。此外,雖然將文獻提取整合到自動化實驗室中可以增強模型開發(fā),但其與預測模型的有效整合仍然是一個未解決的問題。

在自動化實驗室領域,需要解決的最后一個挑戰(zhàn)是發(fā)展規(guī)模經(jīng)濟的問題。隨著社區(qū)建立的自動化實驗室數(shù)量的增多,建立下一個自動化實驗室的難度將會大大降低。因此,實現(xiàn)低成本自動化實驗室的民主化對該領域的發(fā)展來說至關重要的。

寫在最后

在讀完這篇文獻后,我深刻意識到,個人在追求最大化影響力的過程中,有兩個關鍵能力至關重要。首先是會發(fā)現(xiàn)問題,以及能判斷出哪些問題值得解決的能力;其次是具備高質(zhì)量解決特定領域問題的技術水準。

在學術研究中,發(fā)現(xiàn)問題的能力體現(xiàn)在研究者能夠敏銳地識別出關鍵的科學問題,并判斷其研究價值如是否能引領新領域的探索。而具備高質(zhì)量解決問題的技術水準,則體現(xiàn)在研究者能夠運用先進的實驗設計、數(shù)據(jù)分析和建模技術,去有效應對復雜的科學挑戰(zhàn)。結(jié)合這兩種能力,研究者不僅能夠提出創(chuàng)新的理論,還能夠產(chǎn)生具有實用意義的科研成果,促進知識的快速積累與傳播。

在技術開發(fā)方面,發(fā)現(xiàn)問題的能力體現(xiàn)在開發(fā)者能夠識別出行業(yè)內(nèi)最迫切需要解決的技術問題或瓶頸,判斷其對產(chǎn)品和服務的影響。而具備高質(zhì)量解決特定領域問題的技術水準,則表現(xiàn)在開發(fā)者能夠運用工程原理、編碼能力和系統(tǒng)設計知識,去創(chuàng)建和優(yōu)化技術解決方案。有效的技術開發(fā)需要兩者的結(jié)合,以確保所開發(fā)的技術不僅具有實用性,還能夠在市場上產(chǎn)生積極的反響。

在產(chǎn)品開發(fā)方面,發(fā)現(xiàn)問題的能力體現(xiàn)在團隊能夠識別用戶需求、市場趨勢以及潛在的痛點,判斷哪些問題最值得優(yōu)先解決,以增強產(chǎn)品的競爭力。而具備高質(zhì)量解決問題的技術水準,則體現(xiàn)在團隊能夠?qū)?chuàng)新的技術和設計理念轉(zhuǎn)化為可行的產(chǎn)品特性,從而有效滿足用戶需求并實現(xiàn)商業(yè)價值。只有結(jié)合這兩項能力,團隊才能夠更好地開發(fā)出符合市場需求和技術標準的產(chǎn)品,從而推動業(yè)務增長。

雖然具備高水平技術解決問題的人數(shù)遠遠多于那些能夠識別真正有價值問題的人,但真正能夠在各個領域產(chǎn)生深遠影響的,通常是那些同時具備這兩項能力的人。因此,每個從業(yè)者都應時刻思考“什么才是值得解決的問題”,而這一思考將成為我們在學術、技術或產(chǎn)品發(fā)展中追求創(chuàng)新與影響力的核心驅(qū)動力。

參考文獻:[1]

Spiers Memorial Lecture: How to do impactful research in artificialintelligencefor chemistry and materials science:https://doi.org/10.1039/D4FD00153B

[2]

Sample EfficiencyMatters: A Benchmark for Practical Molecular Optimization:https://proceedings.neurips.cc/paper_files/paper/2022/file/8644353f7d307baaf29bc1e56fe8e0ec-Paper-Datasets_and_Benchmarks.pdf

[3]

Du, Y., Jamasb, A.R., Guo, J. et al. Machine learning-aided generative molecular design. Nat Mach Intell6, 589–604 (2024): https://doi.org/10.1038/s42256-024-00843-5

[4]

A. Duval, S. V. Mathis, C. K. Joshi, V. Schmidt, S. Miret, F. D. Malliaros, T. Cohen, P. Lio, Y. Bengio and M. Bronstein, arXiv, 2023, preprint,arXiv https://arxiv.org/abs/2312.07511

[5]

M. C. Ramos, C. J. Collison and A. D. White, arXiv, 2024, preprint,arXiv https://arxiv.org/abs/2407.01603

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1791

    文章

    47183

    瀏覽量

    238243
  • 機器學習
    +關注

    關注

    66

    文章

    8406

    瀏覽量

    132558
  • 深度學習
    +關注

    關注

    73

    文章

    5500

    瀏覽量

    121111
收藏 人收藏

    評論

    相關推薦

    熱像儀助力材料科學與工程研究(三)

    巨哥科技從事精準測溫熱像儀研發(fā)十余年,助力各領域科研人員從事前沿科學研究,以下列舉材料科學與工程研究的部分論文。
    的頭像 發(fā)表于 08-16 14:51 ?1295次閱讀

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學創(chuàng)新

    材料基因組工程的推動下,人工智能如何與材料科學結(jié)合,加快傳統(tǒng)材料和新型材料的開發(fā)過程。 第4章介紹了人工
    發(fā)表于 09-09 13:54

    《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第人工智能驅(qū)動的科學創(chuàng)新學習心得

    的效率,還為科學研究提供了前所未有的洞察和精確度。例如,在生物學領域,AI能夠幫助科學家快速識別基因序列中的關鍵變異,加速新藥研發(fā)進程。 2. 跨學科融合的新范式 書中強調(diào),
    發(fā)表于 10-14 09:12

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章-AI與生命科學讀后感

    很幸運社區(qū)給我個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章關于AI與生命科學的部分,為我們揭示了人工
    發(fā)表于 10-14 09:21

    從入門到研究人工智能領域最值得讀的10本資料(附下載)

    Artificial Intelligence(穩(wěn)健有益的人工智能的優(yōu)先研究項)來自:加州大學伯克利分校此份白皮書是在人工智能研究的主題上你最應該閱讀的白皮書之
    發(fā)表于 10-12 11:38

    中國人工智能的現(xiàn)狀與未來

    中國人工智能的現(xiàn)狀與未來,人工智能是目前最火熱的技術領域,也是門極富挑戰(zhàn)性的科學,從事這項工作的人
    發(fā)表于 07-27 06:40

    中國在人工智能領域影響力怎樣

    中國在人工智能研究領域已處于重要地位,中國的研究人員近年來在該領域影響力顯著提升。
    發(fā)表于 11-20 15:00 ?1086次閱讀

    材料科學在醫(yī)療器械研發(fā)中的應用

    材料科學個相對比較新鮮的領域,也是物理學,化學和工程學交叉的部分。材料科學分析應用領域中所使
    的頭像 發(fā)表于 04-14 20:48 ?5880次閱讀

    熱像儀助力材料科學與工程研究

    巨哥科技從事精準測溫熱像儀研發(fā)十余年,助力各領域科研人員從事前沿科學研究,以下列舉材料科學與工程研究的部分論文。
    的頭像 發(fā)表于 07-22 13:51 ?972次閱讀
    熱像儀助力<b class='flag-5'>材料科學</b>與工程<b class='flag-5'>研究</b>(<b class='flag-5'>一</b>)

    熱像儀助力材料科學與工程研究(二)

    巨哥科技從事精準測溫熱像儀研發(fā)十余年,助力各領域科研人員從事前沿科學研究,以下列舉材料科學與工程研究的部分論文。
    的頭像 發(fā)表于 08-02 14:42 ?909次閱讀

    熱像儀助力材料科學與工程研究(四)

    巨哥科技從事精準測溫熱像儀研發(fā)十余年,助力各領域科研人員從事前沿科學研究,以下列舉材料科學與工程研究的部分論文。
    的頭像 發(fā)表于 08-18 09:21 ?770次閱讀

    中科曙光異構(gòu)智能技術加速計算材料科學創(chuàng)新變革

    材料科學是現(xiàn)代工業(yè)的基石,新材料是支撐工業(yè)高質(zhì)量發(fā)展的關鍵。伴隨人工智能等技術地不斷發(fā)展,材料科學研究方式與效率也正在發(fā)生深刻變革。 中科
    的頭像 發(fā)表于 08-01 10:15 ?944次閱讀

    科研進階!EPR在材料科學中的應用交流會即將開幕

    ,與國儀量子應用工程師共同分享EPR在超分子仿酶功能材料、分子基磁體、光催化等材料科學領域的最新研究進展與應用策略,助力相關領域
    的頭像 發(fā)表于 11-21 08:24 ?525次閱讀
    科研進階!EPR在<b class='flag-5'>材料科學</b>中的應用交流會即將開幕

    何在化學材料科學領域開展有影響力的人工智能研究?(二)

    研究人員和社區(qū)的高層視角出發(fā),探討他們?nèi)绾慰创徒鉀Q問題。首先,我們將重新分類前文提到的各種化學問題,將其作為已確認的機器學習問題實例。然后,再通過梳理機器學習社區(qū)共
    的頭像 發(fā)表于 12-03 01:02 ?211次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>化學</b>和<b class='flag-5'>材料科學</b><b class='flag-5'>領域</b><b class='flag-5'>開展</b><b class='flag-5'>有影響力</b><b class='flag-5'>的人工智能</b><b class='flag-5'>研究</b>?(二)

    何在化學材料科學領域開展有影響力的人工智能研究?(三)

    第三部分編譯后的內(nèi)容:4.如何解決科學問題?在掌握了上述的工具和視角后,我們將提出些建議,幫助您在化學領域選擇具有影響力
    的頭像 發(fā)表于 12-03 01:02 ?203次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>化學</b>和<b class='flag-5'>材料科學</b><b class='flag-5'>領域</b><b class='flag-5'>開展</b><b class='flag-5'>有影響力</b><b class='flag-5'>的人工智能</b><b class='flag-5'>研究</b>?(三)
    RM新时代网站-首页