穀歌發佈AI co-scientist:獨自提出可驗證科學假設,已有多項科研成果
文|學術頭條
提出一個新穎可行的研究方向,並清楚地知道如何進行後續的探索,對於加速科學發現至關重要。
然而,
對於人類科學家而言,這是一個既有廣度又有深度的難題
,不僅需要瞭解本領域的最新進展,還需要綜合陌生領域的知識。
今天,穀歌推出的虛擬科學合作夥伴 ;
AI co-scientist
,或許可以在「
幫助人類追求科學進步
」這件事上大有可為。
論文連結: https://storage.googleapis.com/coscientist_paper/ai_coscientist.pdf
據介紹,AI co-scientist是一個基於Gemini 2.0構建的多智慧體AI系統,旨在
反映科學方法的推理過程,發掘新的、原創性的知識
。它並非要實現科學過程的自動化,而是一個“ 幫助專家收集研究成果和完善其工作的合作工具”、& ldquo;
虛擬的科學合作夥伴
”。
自此,
人類科學家只需使用自然語言指定一個研究目標
—& mdash; 例如,更好地瞭解一種致病微生物的傳播—& mdash;
AI co-scientist便會提出可驗證假設,以及相關已發表文獻的摘要和可能的實驗方法
。
穀歌首席執行官Sundar Pichai在X上表示,在AI co-scientist的幫助下,人類科學家已經“ 在肝纖維化治療、抗菌素耐藥性和藥物再利用等重要研究領域看到了
有希望的早期成果
”。
賦能人類科學家,加速科學發現
根據穀歌官方部落格的介紹,AI co-scientist使用了一系列專業化的智慧體(涉及生成、反思、排序、進化、接近和元評審),這些智慧體受到科學方法本身的啟發,並通過自動迴響來反覆運算生成、評估和優化假設,從而形成一個自我改進的迴圈,生成越來越高品質和新穎的輸出。
AI co-scientist專為合作而構建,科學家可以通過多種方式與系統互動,包括直接提供自己的不成熟想法來探索,或用自然語言對生成的輸出提供迴響。 AI co-scientist還使用網頁搜索和專門的AI模型等工具,來提高生成假設的基礎和質量。
圖|AI co-scientist的不同組成部分,以及其與科學家之間的互動模式。
AI co-scientist能够將指定的目標解析為研究計畫配寘,並由監督智慧體(Supervisor agent)進行管理。 監督智慧體將專業智慧體分配到工作隊列中,並分配資源。 這個設計使得AI co-scientist能够靈活地擴展計算能力,並通過反覆運算改進其科學推理能力,以實現指定的研究目標。
圖|AI co-scientist系統概覽。 專業智慧體(紅色方框,具有獨特的角色和邏輯); 科學家輸入和迴響(藍色方框); 系統信息流(深灰色箭頭); 智慧體間迴響(智慧體部分內的紅色箭頭)。
擴展測試時計算,進行高級科學推理
AI co-scientist利用測試時計算擴展,進行反覆運算推理、演化和改進輸出。 關鍵的推理步驟包括基於自我博弈的科學辯論(用於生成新的假設)、排名賽(用於進行假設比較),和“ 演化” 過程(用於提高品質)。 該系統的代理(agentic)特性促進了遞迴的自我批判,包括使用迴響工具完善假設和建議。
AI co-scientist的自我完善依賴於從其競賽中得出的Elo自動評估名額。 由於Elo評分在系統中的核心作用,穀歌團隊評估了更高的Elo評分是否與更高的輸出質量相關,並分析了Elo自動評分與GPQA基準測試準確率在具有挑戰性的鑽石問題集中的一致性,結果表明,較高的Elo評分與較高的正確答案概率呈正相關。
圖|AI co-scientist(藍線)和Gemini 2.0(紅線)回答GPQA鑽石問題的平均準確率,按Elo評級分組。 Elo是一種自動評估,並非基於獨立的基本事實。
7比特領域專家策劃了15個開放式研究目標和他們專業領域的最佳解決方案。 通過使用自動化的Elo評分名額,穀歌團隊觀察到,AI co-scientist在這些複雜問題上的表現優於其他SOTA智慧體和推理模型,這體現了利用科學方法中的歸納偏差進行測試時計算的優勢。 隨著系統在推理和改進上花費更多時間,自我評分的結果質量也得到了提升,並超過了其他模型和無輔助的人類專家。
圖|AI co-scientist的效能隨著系統計算時間的新增而提高。 這可以從自動Elo名額比其他基線逐步提高中看出。 上圖為評級最佳的假設的Elo,下圖為前10名假設的平均Elo。
在一個包含11個研究目標的較小子集上,專家們評估了AI co-scientist生成的結果在新穎性和影響力方面與其他相關基準相比的表現,並且提供了整體偏好。 儘管樣本量較小,但專家們評估認為AI co-scientist在新穎性和影響力方面具有更高的潜力。 此外,這些人類專家的偏好似乎與之前介紹的Elo自動評估名額一致。
圖|人類專家認為,AI co-scientist的成果具有更高的新穎性和影響力(上圖),與其他模型相比更受青睞(下圖)。
在真實世界的表現如何?
為了評估該系統新穎預測的實際效用,穀歌團隊評估了端到端的實驗室實驗,在3個關鍵的生物醫學應用中探究了AI co-scientist生成的假設和研究建議:藥物再利用、提出新的治療靶點以及闡明抗菌藥耐藥性的機制。 這些實驗都涉及專家參與的指導:
1.急性髓性白血病的藥物再利用
藥物開發是一個日益耗時且昂貴的過程,新療法需要針對每個適應症或疾病重新啟動發現和開發過程的多個方面。 為了應對這一挑戰,藥物再利用科技為現有藥物發現了超出其原始用途的新治療應用。 然而,由於這項任務的複雜性,它需要廣泛的跨學科專業知識。
穀歌團隊應用AI共同科學家來協助預測藥物再利用的機會,並與其團隊合作夥伴一起,通過計算生物學、專家臨床迴響和體外實驗來驗證預測結果。
值得注意的是,AI共同科學家提出了急性髓性白血病(AML)的新型再利用候選藥物。 隨後的實驗驗證了這些提議,確認所提議的藥物在多個AML細胞系中,在臨床相關濃度下抑制了腫瘤細胞的存活能力。
圖|由AI co-scientist預測的急性髓細胞性白血病再利用藥物之一的劑量-反應曲線。 在臨床相關濃度下,KIRA6可抑制KG-1(急性髓系白血病細胞株)的活力。 以較低的藥物濃度降低癌細胞活力具有多種優勢,例如,它可以降低產生脫靶副作用的可能性。
2.推動肝纖維化的靶點發現
識別新治療靶點比藥物再利用更為複雜,往往會導致體外和體內實驗的假設選擇效率低下、優先順序排序不當。 AI輔助的靶點發現有助於簡化實驗驗證過程,從而降低研發時間成本。
穀歌團隊以肝臟纖維化為重點,測試了AI co-scientist提出、排列和生成靶點發現假設和實驗方案的能力。 AI co-scientist通過在人類肝臟器官組織(源自人類細胞的三維多細胞組織培養物,旨在類比人類肝臟的結構和功能)中識別具有顯著抗纖維化活性的臨床前證據基礎的錶觀遺傳靶點,證明了其潜力。
圖|AI co-scientist建議的肝纖維化靶點治療與纖維化誘導劑(陰性對照)和抑制劑(陽性對照)的比較。 AI co-scientist建議的所有治療方法都顯示出良好的活性(所有建議藥物的p值均小於0.01),包括可能逆轉疾病錶型的候選藥物。
3.解釋抗菌藥耐藥性機制
作為第三項驗證,穀歌團隊側重於提出假設,解釋與抗菌藥耐藥性(AMR)相關的細菌基因轉移進化機制,即微生物進化出的抵抗治療感染藥物的機制。 這是另一個複雜的挑戰,涉及到理解基因轉移的分子機制(共軛、轉導和轉化),以及推動AMR基因傳播的生態和進化壓力。
在此測試中,專家研究人員訓示AI co-scientist探討一個已在他們小組中取得新發現,但尚未公開的主題,即解釋衣殼形成的噬菌體誘導型染色體島(cf-PICI)如何在多種細菌物種中存在。
AI co-scientist獨立提出了“ cf-PICI與不同噬菌體尾部相互作用以擴大其宿主範圍” 的觀點。 在使用AI co-scientist之前,穀歌團隊已經在原始的實驗室實驗中驗證了這一發現。 這展示了AI co-scientist作為輔助科技的價值,因為它能够利用數10年的研究成果,包括之前所有關於這一主題的開放存取文獻。
局限性與展望
在科技報告中,穀歌團隊也討論了AI co-scientist的幾個局限性和改進機會,包括增强文獻綜述、事實核查、與外部工具的交叉檢查、自動評估科技,以及涉及更多學科專家和多樣化研究目標的大規模評估。
他們也表示,AI co-scientist代表了向AI輔助科技邁出的重要一步,有助於科學家加速發現。 其在多個科學和生物醫學領域生成新穎、可驗證的假設的能力,以及通過新增計算能力進行遞迴自我改進的能力,展示了它在加速科學家應對科學和醫學重大挑戰方面的潜力。
原文網址:https://zh.gushiio.com/ai/2309.html