目錄
大型語言模型(LLM)最近在各種數學benchmark上瘋狂刷分,動輒90%以上的正確率,搞得好像要統治數學界一樣。然而,Epoch AI看不下去了,聯手60多位頂尖數學家,憋了個大招——FrontierMath,一個專治LLM各種不服的全新數學推理測試!結果慘不忍睹,LLM集體“翻車”,正確率竟然不到2%!🤡
看看Epoch AI是怎麼做的
FrontierMath是一個用於評估人工智能高級數學推理能力的基準測試。Epoch AI與60多位頂尖數學家合作,創建了數百道原創的、極具挑戰性的數學問題,FrontierMath涵蓋了現代數學的大多數主要分支——從數論中計算密集型問題到代數幾何和範疇論中的抽象問題,目標是捕捉當代數學的概貌,即使是經驗豐富的數學專家,也得絞盡腦汁,花費數小時甚至數天才能解出來

FrontierMath具有三個關鍵的設計原則:1)所有問題都是新的且未發表的,以防止數據污染;2)解決方案是自動可驗證的,從而實現高效的評估;3)問題是“防猜測”的,在沒有正確推理的情況下解決的可能性很低
評估結果
評估了六個領先的模型,包括o1 ,Claude 3.5 Sonnet、GPT-4o,Grok和Gemini 1.5 Pro。即使有延長的思考時間(10,000個token)、Python訪問權限以及運行實驗的能力,成功率仍然低於2%——相比之下,在傳統基準測試中,成功率超過90%

Epoch AI指出,現有的數學benchmark,例如GSM8K和MATH,早就被LLM們刷爛了,高分的原因很大程度上是因為數據污染——説白了,就是LLM通過記憶大量的“考古題”來提高分數,真正考試的時候,當然容易!而FrontierMath則完全不同,所有題目都是全新的、未公開的,LLM想作弊都沒門!這下LLM們,自然就暴露了它們的真實水平

連菲爾茲獎得主都服了
為了進一步驗證FrontierMath的難度,Epoch AI還特意採訪了多位菲爾茲獎(數學界的最高榮譽)得主,包括陶哲軒 (2006)、蒂莫西·高爾斯 (1998)、理查德·博赫茲 (1998),以及國際數學奧林匹克競賽 (IMO) 教練陳誼廷 (Evan Chen)。這些大佬們一致認為,FrontierMath的題目非常具有挑戰性,需要深厚的專業知識和強大的推理能力才能解決

Andrej Karpathy對FrontierMath的看法 :LLM評估中的莫拉維克悖論
莫拉維克悖論(Moravec's paradox)是由人工智能和機器人學者所發現的一個和常識相佐的現象。和傳統假設不同,人類所獨有的高階智慧能力只需要非常少的計算能力,例如推理,但是無意識的技能和直覺卻需要極大的運算能力。這個理念是由漢斯·莫拉維克、羅德尼·布魯克斯、馬文·閔斯基等人於1980年代所闡釋。如莫拉維克所寫;“要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的
Andrej Karpathy对这个新的前沿数学基准测试(LLM仅解决了2%)的反应:

之所以引入這個基準,是因為大模型越來越多地碾壓現有的數學基準。有趣的問題是,儘管從許多方面(/evals)來看,大模型正逐步躋身頂級專家行列(如數學和編碼等),但你不會僱用他們而不是讓他們從事最瑣碎的工作。如果你把問題描述整齊地放在盤子裏,他們就能解決複雜的封閉式問題,但他們很難連貫地把長長的、自主的、解決問題的序列串聯起來,而人卻會覺得非常容易
這是莫拉維克悖論的變相,他在 30 多年前就觀察到,對人類來説容易/困難的事情,與對計算機來説容易/困難的事情,在非直覺上可能大相徑庭。例如,人類對計算機下國際象棋印象深刻,但國際象棋對計算機來説卻很容易,因為它是一個封閉的、確定性的系統,具有離散的行動空間、完全的可觀測性等等。反之亦然,人類可以繫好鞋帶或疊好襯衫,而且根本不需要考慮太多,但這是一項極其複雜的傳感運動任務,對硬件和軟件的技術水平都是挑戰。這就像不久前 OpenAI 發佈的魔方一樣,大多數人都把注意力集中在解魔方本身(這是微不足道的),而不是用機器人的手轉動魔方的一個面這一實際難度極高的任務
因此,我非常喜歡這個 FrontierMath 基準,我們應該製作更多的基準。但我也認為,如何為所有 "容易 "但其實很難的東西創建評估是一個有趣的挑戰。很長的語境窗口、連貫性、自主性、常識、有效的多模態輸入/輸出...... 我們如何建立良好的 "初級工作 "評估?你對團隊中任何初級實習生的期望
結語:
不管怎麼説,數學為評估複雜推理提供了一個獨特的理想環境。它需要創造力和 extended chains of precise logic——通常涉及複雜的證明——這些證明必須經過精心計劃和執行,但允許對結果進行客觀驗證
衡量人工智能在創造性問題解決和在多個步驟中保持精確推理方面的能力,可能有助於深入瞭解在系統性、創新性思維(科學研究所需)方面的進展
探索FrontierMath:

https://epochai.org/frontiermath發佈了帶有詳細解答、專家評論和研究論文的示例問題