AI能為科學研究做什么

陳永偉2023-08-22 00:26

陳永偉/文

從蛋白質的結構說起

在生命過程中，蛋白質扮演著十分重要的角色。一方面，它是生物體的構造師，小到一個細胞，大到各種器官，都需要由蛋白質來構造。另一方面，它還是很多生命活動的重要參與者，無論是在生物體內進行物質傳輸、對各種生化過程進行催化，還是對來自體外的侵襲進行抵抗，都離不開蛋白質的參與。

目前，人類已知的蛋白質達到了兩億多種，每一種蛋白質的三維結構都不相同，而它們的功能差異就是由這些不同的結構決定的。例如，人們出于滋潤補水、護膚嫩膚的需要，經(jīng)常會設法補充膠原蛋白，其奧秘就在于這類蛋白的結構類似于一股擰起來的繩子，因而具有很強的韌性，從而可以在軟骨、韌帶、骨骼和皮膚之間傳遞張力。又如，我們免疫系統(tǒng)中的抗體蛋白大致上呈現(xiàn)了一種Y型的結構，并能夠形成獨特的鉤狀，這就使得它們可以附著在病毒和細菌上，對致病微生物進行檢測、標記及消滅。正是因為蛋白質的結構和功能之間存在著以上這樣的關系，因此從上世紀中期開始，對蛋白質結構的探索就成為了生物學家研究的一個重點。

1961年，美國國立衛(wèi)生學院的研究員安芬森（ChristianAnfinsen）發(fā)表了一篇論文，對其進行的一項實驗進行了介紹：在實驗中，他將牛胰核糖核酸酶蛋白分子用變性試劑打開，將二硫鍵還原成巰基，由此，蛋白質原有的折疊結構就被破壞了，酶的活性也隨之消失。然后，他將裝有實驗樣品的燒杯暴露在空氣中過夜。令他驚奇的是，在經(jīng)過一夜的放置之后，酶的大部分活性恢復了，被破壞了結構的蛋白質又折疊成了原來的樣子。這有多奇怪呢？大致上就相當于我們將一朵由鐵絲編織成的花用老虎鉗拉直，但在經(jīng)過一段時間之后，卻發(fā)現(xiàn)那段已經(jīng)被拉直的鐵絲竟又自己變成了一朵花！

為什么會出現(xiàn)這樣的情況呢？安芬森給出的一個猜想是：這或許說明了蛋白質多肽鏈中氨基酸的排列順序，也就是所謂的蛋白質一級結構決定了它最終的三維結構——當一級結構決定后，多肽鏈會服從熱力學的定律，自動折疊成能量最小化的狀態(tài)。在后來的生物學研究中，安芬森的上述猜測被歸納為了“安芬森法則”。1972年，安芬森憑借著這個重要的法則斬獲了諾貝爾化學獎。

對于研究者而言，安芬森法則指出了一個重要的研究方向，即“蛋白質折疊問題”：既然蛋白質的三維結構取決于其一級結構，那么，從理論上講，人們就可以根據(jù)分子間的能量優(yōu)化法則通過蛋白質的一級結構來對其三維結構進行預測。由于蛋白質的功能很大程度上取決于其結構，因此如果人們可以充分了解蛋白質的三維結構，就可以按圖索驥地尋找，甚至創(chuàng)造自己所需要的蛋白質。很顯然，由此帶來的想象空間是十分巨大的。

然而，正所謂“理想很豐滿，現(xiàn)實很骨感”。盡管乍看之下“蛋白質折疊問題”的潛在價值十分巨大，不過由于組成蛋白質多肽鏈的氨基酸數(shù)量都很龐大，因此要通過其結構來預測蛋白質的折疊是非常困難的。所以安芬森法則指出的道路看似光明，但在很長時間內，卻成了一條少有人走的路。

相比之下，生物學家們似乎更傾向于用直接觀測的方法來探索蛋白質的結構。從早期的X光衍射法到新近的冷凍電鏡法，隨著實驗器具的日益發(fā)展，人們通過實驗探索蛋白質結構的能力也日漸提高。但盡管如此，相比于蛋白質龐大的種類量，人們用實驗探索蛋白質結構的努力只能算是杯水車薪。

2018年，轉機出現(xiàn)了。在當年11月舉辦的第13屆全球蛋白質結構預測競賽（CASP）上，DeepMind的AI程序AlphaFold成功地對43種蛋白質中的25種的結構進行了預測，由此在98名參賽者中獲得了第一。而相比之下，第二名只預測準確了3種蛋白質的結構。更值得一提的是，在對某些蛋白質結構的預測中，AlphaFold得到的結論甚至比用X光衍射法和冷凍電鏡法觀測到的結論更為準確。

AlphaFold是靠什么獲得了如此優(yōu)異的成績呢？其實，它用的方法很簡單：學習大量蛋白質的序列和結構數(shù)據(jù)，從中尋找氨基酸分子之間的相互作用，以及蛋白質片段之間的演化關系，然后再按照找到的規(guī)律對蛋白質的結構進行預測。

初戰(zhàn)告捷之后，AlphaFold不斷從生物學、物理學和機器學習領域的最新進展中汲取靈感，以此來升級自己的算法，其預測能力也獲得了很大的提升。2022年7月28日，DeepMind在其官網(wǎng)發(fā)布了一篇名為《AlphaFold揭示蛋白質宇宙的結構》（AlphaFoldrevealsthestructureoftheproteinuniverse）的新聞,宣布AlphaFold已經(jīng)對幾乎所有已知蛋白質的結構做出了預測。隨后，又將所有預測的蛋白質結構放到了網(wǎng)上，供科研人員自行下載使用。據(jù)不少下載了數(shù)據(jù)的科研人員反映，這些數(shù)據(jù)的準確率非常高。

雖然在未來的一段時期內，人們還需要繼續(xù)對AlphaFold給出的預測數(shù)據(jù)進行驗證，但可以說，困擾了人們半個多世紀的“蛋白質折疊問題”基本上已經(jīng)得到了解決。

AI在科學研究中的應用

毫無疑問，AlphaFold破解“蛋白質折疊問題”的成功為生物學的發(fā)展作出了巨大的貢獻。但這個事件還有一個更為重要的意義，即證明了AI可以在科學研究領域起到至關重要，甚至是決定性的作用。由此，“人工智能驅動的科學研究”（AIforscience，有時也簡稱AI4S）成為了AI研究中的顯學。

科學的發(fā)展是一個不斷猜想、不斷檢驗的過程。在科學研究當中，研究者需要先提出假設，然后根據(jù)這個假設去構造實驗、搜集數(shù)據(jù)，并通過實驗來對假設進行檢驗。在這個過程中，研究者需要進行大量的計算、模擬和證明。而在幾乎每一個步驟當中，AI都有很大的用武之地。

（1）研究問題的提出

提出一個好的問題是做出一個好研究的第一步，只有提出的研究問題是重要的，后續(xù)的研究才可能有意義。傳統(tǒng)上，科學問題主要有兩個來源：一種是對現(xiàn)象以及數(shù)據(jù)的觀察來提出某些猜想，比如，天文學上著名的開普勒三定律，就是由開普勒在整理天文學家第谷留下的大量數(shù)據(jù)之后提出，然后再通過理論研究加以確立的。第二種則是對既有文獻的梳理，即通過閱讀既有的研究成果，看看前人的研究還有哪些地方留有不足，然后以此為突破點提出自己的問題。在使用了AI這個工具后，用以上述兩種方式尋找問題的研究者都可以大幅改善自己的效率。

先看通過觀察提問。在過去，通過觀察來提問對研究者的直覺要求是非常高的。以開普勒三定律為例，其中的第一定律（橢圓定律），即“行星繞太陽運行的軌道是橢圓，并且太陽在這個橢圓的一個焦點上”是相對直觀的，通過對記錄數(shù)據(jù)的觀察基本就可以提出這個假設。但第二定律（面積定律），即“行星和太陽的連線在相等的時間間隔內掃過相等的面積”就不那么直觀了，即使是十分仔細的人也需要在靈感的啟發(fā)之下才可能發(fā)現(xiàn)這個規(guī)律。至于第三定律（調和定律），即“行星繞太陽一周的恒星時間（T）的平方與它們軌道長半軸（a）的立方成正比”則更是一個非常不直觀的現(xiàn)象，只有非常天才的研究者才有可能提出這樣的假說。

而應用了AI之后，人們在占有了充分的觀測數(shù)據(jù)之后，就可以相對容易地提出相關的研究問題。比如，如果人們有了行星運行的大量數(shù)據(jù)，并且猜想行星繞太陽一周的時間可能和其軌道橢圓的某條軸的長度存在著某種關系，那么他就可以讓AI去嘗試建立這些變量之間的函數(shù)關系。通過這樣的方法，開普勒第三定律就可能比較容易地被提出來。

再看通過閱讀文獻來提問。過去，從事科學研究的人相對較少，研究的數(shù)量也相對較少，因此一個研究者只要肯下功夫，就至少可以把自己所從事的領域的相關文獻都予以掌握。然而，隨著科學的發(fā)展，從事科研的人數(shù)不斷增加，各種科研成果也不斷地涌現(xiàn)，一個科研人員要想完整地了解自己所在研究領域的進展已變得越來越困難，更遑論去了解其他領域的動態(tài)來給自己的研究提供啟發(fā)了。

在應用了AI工具后，以上的問題可以在很大程度上得到緩解。比如，現(xiàn)在的研究者可以讓ChatGPT等AI大模型來為自己整理已有的文獻，并寫成摘要。這樣，他們就可以大幅減少搜索和閱讀文獻所花費的精力，可以以更小的成本了解現(xiàn)有研究的進展，并在此基礎上提出新的研究問題。

（2）數(shù)據(jù)的搜集

在提出了相關的研究問題之后，研究人員就需要設計實驗，并搜集相關的數(shù)據(jù)，為進一步的研究做準備。在這個過程中，AI的應用潛力也是十分廣闊的。

這種作用首先體現(xiàn)在數(shù)據(jù)的選擇上。在實驗當中，并不是所有的數(shù)據(jù)都是可用的。很多數(shù)據(jù)可能是受到干擾后產生的，如果不剔除這些數(shù)據(jù)，后續(xù)的研究結果就可能受到嚴重的干擾。現(xiàn)在在很多實驗中，深度學習已經(jīng)成為了這項工作的主要承擔者。

在搜集了數(shù)據(jù)之后，對數(shù)據(jù)進行標注也是一項艱巨的工作。例如，在生物學當中，為新分子進行功能和結構標注對于后續(xù)的研究來說是非常重要的，但要進行這一工作則并不容易。雖然新一代測序技術不斷涌現(xiàn)，但只有不到1%的已測序蛋白質得到了生物學功能的標注。目前，為了能夠提高數(shù)據(jù)標注的效率，研究者們正在嘗試讓AI學習手動標注的結果，從而訓練出代理模型（surrogatemodels）來幫助自己對新的數(shù)據(jù)進行標簽。從現(xiàn)有的結果看，這種方式確實可以比較有效地改進標注效率。

除此之外，AI現(xiàn)在還有一個非常重要的作用，即生成數(shù)據(jù)。這一點，在AI研究領域表現(xiàn)得最為顯著。近十多年來，人工智能的主要發(fā)展主要來自于機器學習領域，眾所周知，這個領域的發(fā)展對數(shù)據(jù)的依賴非常強。在實踐當中，數(shù)據(jù)的搜集和整理不僅成本高、質量難控制，還可能衍生出侵犯個人隱私、威脅數(shù)據(jù)安全等問題。為了應對這些問題，一些學者建議可以用合成數(shù)據(jù)作為真實數(shù)據(jù)的補充，供機器學習使用。

與真實數(shù)據(jù)相比，合成數(shù)據(jù)具有不少優(yōu)勢：一方面，從訓練效果上看，用合成數(shù)據(jù)進行訓練的效果其實并不比真實數(shù)據(jù)差，在一些場合，它們的表現(xiàn)甚至更高。在真實數(shù)據(jù)的形成過程中，可能混入很多不必要的噪聲信息，這就可能對其質量造成影響，而合成數(shù)據(jù)則沒有這樣的問題。麻省理工學院、波士頓大學和IBM曾聯(lián)合做過一項研究，用真實數(shù)據(jù)和合成數(shù)據(jù)分別訓練模型對人類的行為進行識別，結果采用合成數(shù)據(jù)進行訓練的模型表現(xiàn)要比采用真實數(shù)據(jù)訓練的模型更優(yōu)。另一方面，從成本上看，合成數(shù)據(jù)的成本要遠遠低于真實數(shù)據(jù)。除此之外，由于合成數(shù)據(jù)都是生成而非搜集的，所以使用它們來進行研究還可以規(guī)避很多法律和道德風險。

目前已經(jīng)有越來越多的AI研究者開始用合成數(shù)據(jù)取代真實數(shù)據(jù)作為機器學習的材料，其對AI技術發(fā)展的貢獻正在變得越來越顯著。正是因為這個原因，所以《麻省理工科技評論》（MITTechnologyReview）將合成數(shù)據(jù)技術評為了2022年全球十大突破性技術之一。

（3）科學計算和模擬

在科學研究的過程中，通常需要進行大量的計算和模擬工作。比如，如果科學家發(fā)現(xiàn)了某個星體的運行規(guī)律，怎樣才能證明他的發(fā)現(xiàn)是正確的呢？最直觀的方法就是根據(jù)他發(fā)現(xiàn)的規(guī)律計算出這個星體在未來某個時間點的位置，然后進行比對。從這個意義上講，精確的計算和模擬就是驗證理論的關鍵。

但計算并不是那么容易的事情。例如，從理論上講，各大星體之間的相對運動關系都可以由萬有引力定律推出。牛頓在發(fā)現(xiàn)三大定律之后，就曾經(jīng)很自豪地宣稱，他已經(jīng)掌握了宇宙運行的終極奧秘。但是，真實情況卻并非如此。以由于劉慈欣的小說而被人們所熟知的“三體”問題為例。從表面上看，“三體”系統(tǒng)是非常簡單的，總共只有三顆彼此糾纏的恒星，以及一顆夾在其中的行星，要模擬它的運動軌跡似乎并不難。但一旦我們試圖用牛頓力學來對其位置進行推導，就會發(fā)現(xiàn)得到的聯(lián)立微分方程其實構成了一個混沌系統(tǒng)，其運動的軌跡是很難確定的，一個微小的擾動都可能帶來巨大的偏差。正是因為這個原因，所以在《三體》小說中，即使科技水平遠超地球的三體人也無法制成一張精確的萬年歷。

在現(xiàn)實中，遠比“三體”系統(tǒng)復雜的問題比比皆是。在對這些問題進行研究時，人們都不得不直面“維度爆炸”問題的挑戰(zhàn)。

舉例來說，臺風軌跡的預測就是一件計算量需求非常高的工作。傳統(tǒng)上，人們主要是依靠動力系統(tǒng)模型來進行預測。這種方法會根據(jù)流體動力學和熱力學等物理定律來構造大量的微分方程，用它們來模擬大氣的運動，進而對臺風的走向進行預測。顯然，這個動力系統(tǒng)是非常復雜的，不僅預測所需要的計算量非常大，并且非常容易受外生擾動因素的影響。正是因為這個原因，所以世界各國即使動用了最先進的超級計算機，預測也經(jīng)常出錯。最近幾年，人們調整了預測的思路，開始嘗試用AI模型預測臺風，由此涌現(xiàn)了一大批相關的AI模型。這類模型放棄了傳統(tǒng)物理模型的預測思路，轉而用機器學習的方法來進行預測，不僅大幅降低了計算負擔，而且有效提升了預測精度。比如，“風烏”模型在一個單GPU的計算機上就可以運行，并且僅需30秒即可生成未來10天全球高精度預報結果。在最近預測臺風“杜蘇芮”的過程中，“風烏”模型預測的軌跡誤差遠遠小于傳統(tǒng)模型，從而為人們抗擊臺風做出了很大的貢獻。

（4）輔助證明

在一些學科（例如數(shù)學）的研究過程中，需要對命題進行理論上的證明。從很早開始，人們就試圖借助計算機來幫助他們完成這項困難的工作。他們的基本思路是：首先將一個數(shù)學命題形式化（formalisation），然后借助計算機來對形式化的命題給出證明。

在現(xiàn)實當中，很多數(shù)學命題是由自然語言表述的。比如，著名的“四色問題”就是要證明“任何一張地圖只用四種顏色就能使具有共同邊界的國家著上不同的顏色。”對于計算機來講，這種自然語言是它們難以理解的，因此它們也不可能幫助人們以自然語言的形式來解決證明問題。幸運的是，數(shù)學家們經(jīng)過長期的努力，已經(jīng)對大部分的數(shù)學分支建立起了公理化的表述體系。借助于公理化體系，用自然語言表述的命題就可以表述為由一個系列邏輯判斷構成的形式化命題。通過特定的方式編碼，計算機可以對這些形式化命題進行識別，于是，計算機就可以幫助人們用來進行輔助證明。

仍以“四色問題”的證明為例：在歷史上，這個著名的問題曾經(jīng)有過好幾個版本的證明。盡管在每一個版本的證明中，數(shù)學家都用到了計算機作為輔助，但最初的證明都是以人工的推導為主，計算機的工作主要局限在提供計算的支持。2005年，英國劍橋研究院的高級研究員貢蒂埃（GeorgesGonthier）給出了“四色問題”的新一代證明。和前幾代的證明不同，貢蒂埃首先將這個問題轉化成了一系列形式化的命題，再用一個名叫Coq的交互式輔助軟件對它們進行了證明。由于在證明的過程中，Coq完成了大量最復雜的證明，因此在某種意義上講，這個過程可以算是一個機器證明。

需要指出的是，盡管包括Coq在內的輔助證明軟件已經(jīng)可以幫助人們完成很多證明工作，但它的自動化是非常低的。在多數(shù)時候，人類研究者還需要充當引導員的角色，幫它們把自然命題轉化為形式化命題。

隨著AI的發(fā)展，人們開始嘗試讓AI來解決這個問題。比如，2022年，由谷歌、斯坦福大學等單位的研究人員組成的一個團隊就發(fā)表了一篇論文，介紹了使用OpenAICodex的神經(jīng)網(wǎng)絡進行自動形式化的工作，顯示了用大型語言模型將非形式化語句自動翻譯成形式化語句的可行性。今年，這個團隊又在此基礎之上提出了一整套名為“草圖、草稿、證明”（Draft,Sketch,andProve，簡稱DSP）的AI輔助證明方法。這套方法建議利用大型語言模型先將自然語言命題轉化為由一系列邏輯推理步驟組成的形式化命題，然后用交互式定理證明器來對這些命題進行證明。當然，在這些步驟之間，還存在著一系列的中間猜想。因此在證明的最后，還需要通過自動驗證器來對這些中間猜想進行證明。這樣，上述的工作就可以合起來構成一個完整的形式化證明。

（5）輔助寫作

對于科研工作來說，AI還有一個重要的貢獻：輔助寫作。在很多人看來，在完成了研究、得到了相關的結論之后，把它們寫成論文就是一件非常輕松的事了。但事實上，情況未必如此。在現(xiàn)實中，有很多研究人員對做實驗、跑數(shù)據(jù)非常熱衷，但對寫論文則相當?shù)钟|，甚至認為花時間在遣詞造句上完全是浪費時間。而在以ChatGPT為代表的生成式AI興起之后，這類研究人員就得到了拯救。現(xiàn)在，他們在完成研究后，直接把相關的結論丟給ChatGPT，就可以得到非常規(guī)范的論文。很顯然，這會極大減輕他們的工作負擔，提升他們的工作效率。

另一個容易被忽視的貢獻

需要指出的是，除了上述的這些直接貢獻之外，AI還有一個非常容易被忽視的影響，即重構產學研關系、促進企業(yè)對基礎研究的投資熱情。對于面臨一些領域被西方“卡脖子”的我國而言，這一點可能是尤其需要重視的。

根據(jù)《中國研發(fā)經(jīng)費報告2022》，2022年我國基礎研究經(jīng)費支出為1951億元，基礎研究投入強度為6.3%。雖然與歷史相比，我國對基礎研究投入的強度不斷上升，但如果與國外相比，就可以看到目前我國的基礎研究投入強度依然很低。

如果我們把基礎研究投入分執(zhí)行機構進行分析，就會發(fā)現(xiàn)以高校作為執(zhí)行機構的比例是最高的，在總投入中占到了49.4%。其次是研究和開發(fā)機構，占39.1%，而企業(yè)作為執(zhí)行機構的，僅占6.5%。相比之下，美國基礎研究經(jīng)費由企業(yè)執(zhí)行比例為32.4%，日本基礎研究經(jīng)費由企業(yè)執(zhí)行比例為47.07%。眾所周知，高校和科研機構的經(jīng)費主要來自于國家撥款，而企業(yè)的研究經(jīng)費則主要是由其自行投入的。因此，這組數(shù)字就說明了，我國的企業(yè)在基礎研究上進行投入的意愿要遠低于美、日等國。

為什么會出現(xiàn)以上這樣的情況呢？一個重要的原因是，基礎研究的周期太長、風險較大、轉化率又低，導致以利潤最大化為目標的企業(yè)認為從事基礎研究是無利可圖的。在發(fā)達國家，由于建立了比較完善的產學研共生生態(tài)，類似風險可以比較好地在企業(yè)、政府、科研機構等眾多主體之間分擔，所以企業(yè)對基礎研究的投資積極性就相對較高。而我國，產、學、研彼此之間的孤立性還較高，因而就很難有類似的風險分擔機制。

顯然，要破解上述問題，根本的出路還是要培育健康的創(chuàng)新生態(tài)，推進產學研的一體化。但這是一個長期的過程，不是一朝一夕可以實現(xiàn)的。不過，即使在創(chuàng)新生態(tài)未能有效改善的條件下，AI的應用也可以在很大程度上提升企業(yè)投資基礎研究的積極性。通過前面的分析可以看到，借助AI的輔助，基礎研究的周期可以大幅縮短，效率可以大幅提升。從經(jīng)濟角度看，這其實就增加了基礎科研的預期收益，同時降低了其失敗風險。因此，原本無力可圖的基礎研究就可能成為一項合算的生意，企業(yè)對其投資的積極性也將提升。這樣一來，基礎研究投入不足的問題就可以得到有效的緩解。