跳轉至
科技AI

DeepMind再迎挑戰者,ESM作者帶隊6個月超越AlphaFold 3,代碼權重全開源

Chai Discovery髮佈超越AlphaFold 3的模型Chai-1。

一家剛成立6個月的初創公司Chai Discovery最近髮佈了能對打甚至超越AlphaFold 3的模型Chai-1,而且放出了模型權重和推理代碼。不開源的DeepMind這回還能坐得住嗎?

距離AlphaFold 3亮相已經過去了4個月,但由於未公佈代碼且限量訪問次數,我們對它的原理、機製和實際效用依舊知之甚少。

DeepMind團隊表示要等到髮佈6個月後,也就是今年11月才會開源。

前兩天3位牛津學霸放出的複現也僅僅完成了第一階段,目前隻能預測蛋白質,還無法用於DNA、RNA等其他生命分子。

然而,AF3的各路「踢館者」正紛至沓來。


最近,一家名爲Chai Discovery的初創公司髮佈了他們的最新模型Chai-1,能夠對蛋白質、小分子、DNA、RNA、共價修飾等進行統一預測。

原文地址:https://www.chaidiscovery.com/blog/introducing-chai-1


根據基準測試結果,Chai-1在藥物髮現的相關任務中達到了SOTA水平,甚至超過了AlphaFold 3,以及Meta FAIR的前ESMFold團隊另起爐灶搞出的最新模型ESM3。

不僅性能好,Chai-1團隊還撰冩了一篇16頁的技術報告,並開源了模型權重和推理代碼,但僅限非商業用途。

論文地址:https://chaiassets.com/chai-1/paper/technical_report_v1.pdf

Github地址:https://github.com/chaidiscovery/chai-lab


開髮者們可以選擇下載代碼、在本地運行或修改模型,也可以通過服務器在線調用。

https://lab.chaidiscovery.com/


這個open程度,讓人不禁回想起曾經既有代碼又有論文的AlphaFold 2。


模型髮佈後,HuggingFace的CEO還直接髮出了在線邀請:不如在HF倉庫上也托管一份權重。

IBM大佬Alex Kaplan甚至把Chai-1的髮佈稱爲「藥物髮現的ChatGPT時刻」。

他表示,當下絶對是分子生物學的黃金時代,在可預見的未來,隻需幾行代碼就能治愈所有疾病,而Chai-1或許就是AlphaFold之後我們朝着這個目標邁出的重要一步。

蛋白質領域的「原生多模態」

技術報告中提到,模型架構和訓練策略大體依照了AlphaFold 3的論文,但有一個關鍵區別:


他們使用截止到2021-01-12的所有數據,僅訓練了單個模型,而非針對不同的評估分別訓練,此外還添加了一些新的功能。

與大多數需要MSA(多重序列比對)的結構預測工具不同,Chai-1可以在沒有MSA的情況下以單序列模式運行,同時達到相近的性能。

除了利用序列信息,Chai-1也是一個「原生多模態模型」。

除了直接從序列信息進行建模的能力外,它還可以通過prompt接受新數據,例如實驗得出的結合袋(pocket)、接觸點(contact)和對接(docking)的約束條件。

這些約束條件能捕捉到複合物中不同物質在不同粒度上的相互作用信息,和結構模闆提供鏈內距離的作用類似,但更注重提供鏈間距離的信息。

對比實驗中髮現,提供約束條件後,甚至可以爲模型性能帶來兩位數的提昇(圖4A);但爲了防止模型過於依賴約束條件導緻過擬合,訓練時對這些特徵採用了dropout。

比如表位的約束——即使隻有少量的接觸點或結合袋殘基的信息,也能使抗體-抗原結構預測的準確率翻倍,讓AI在抗體工程中的角色變得更加實用。

根據DockQ上的可接受預測率基準,Chai-1能比基於MSA的AlphaFold-Multimer模型(67.7%) 更準確地折疊多聚體 (69.8%)。

這個結果,讓Chai-1成爲第一個僅使用單序列信息、無需MSA蒐索,就能以AlphaFold-Multimer水平預測多聚體結構的模型。

在PoseBusters基準上,僅給出蛋白質序列和配體化學成分的信息時,Chai-1對配體預測結果的RMSD(均方根偏差)成功率爲77%,超過了AF3的76%。

成立半年,拿出頂級模型

髮佈Chai-1模型的Chai Discovery成立於今年3月,是一家AI生物初創公司,就在幾天前的9月9日完成了3000萬美元的種子輪融資。

這輪融資由Thrive Capital領投,OpenAI和Dimension Capital也參與其中,交易完成後,Chai Discovery的估值已昇至1.5億美元。

目前Chai的員工數量還不到10人,但吸引了不少來自OpenAI、谷歌、Meta FAIR等頂尖機構的人才加入,大部分成員也曾是頭部藥物公司的AI負責人。

Chai Discovery團隊的舊金山辦事處

聯合創始人兼CEO Joshua Meier本科和碩士都畢業於哈佛大學計算機科學專業,此外還拿到了化學專業的學士學位。

他高中時就在美國計算機奧賽中拿到了金牌水平的名次,並涉足生物技術領域的創業,在OpenAI、谷歌、Meta FAIR、佈羅德研究所(隸屬於MIT和哈佛)等機構都曾有豐富的研究和工作經曆。

2021年,在FAIR工作的Meier和團隊髮表了一篇重要論文,創建了第一個Transformer架構的蛋白質語言模型ESM-1b,目前引用量已經達到1800+。

論文地址:https://www.pnas.org/doi/full/10.1073/pnas.2016239118

作者列表中,還有不少熟悉的名字,包括當時還在哈佛的Pika創始人郭文景(Demi Guo),以及FAIR曾經的ESM團隊成員Alexander Rives、Zeming Lin、Tom Sercu和Jason Liu。

根據LinkedIn信息,ESM團隊解散後,Alexander Rives、Zeming Lin和Tom Sercu已經去了初創公司EvolutionaryScale,他們前段時間也剛剛髮佈新模型ESM3。


創立Chai Discovery前,Meier還曾擔任生物技術公司Absci的首席人工智能官。

在種子輪中選擇跟投的Dimension Capital投資人Zavain Dar最近髮表了一篇文章,對投資想法進行了闡述,並高度讚揚了Meier和他的團隊。

Zavain Dar表示,從2019年Meier先後入職Meta和OpenAI時,他們就非常關注Meier的工作。

短短幾個月內,Chai-1就能夠與業內財力雄厚、曆史悠久的企業所開髮的産品平起平坐,這讓他們看到了,一個「短小精悍」的團隊可以在極短時間內做出多少成就。

在Zavain Dar的文章和Chai Discovery的博客中,都談到了當前階段開放技術成果的重要性。

雖然Chai-1已經取得了非常卓越的成就,但我們才剛剛站在起跑線上。


要將生物學「從科學轉變爲工程」,還需要構建更成熟、更強調的基礎模型,用於預測和重編程生化分子間的相互作用。


Chai-1的團隊表示,他們堅信長期的獲勝策略需要透明度和開放實驗,當今的生物技術從業者就可以免費且輕鬆地應用這些前沿技術,將其轉化爲藥物髮現領域的實用價值。

參考資料

https://www.chaidiscovery.com/blog/introducing-chai-1

https://www.bloomberg.com/news/articles/2024-09-09/openai-thrive-capital-back-six-month-old-ai-drug-discovery-startup

最新