跳轉至

谷歌發佈Gemini 2.0 Pro:多模態,編程能力炸裂,Jeff Dean驚呼,現在免費開放

目錄

剛剛谷歌 DeepMind 宣佈,Gemini 2.0 現已向所有人開放!本次發佈帶來了一系列更新和新模型,旨在為開發者和用户提供更強大、更快速、更具成本效益的 AI 體驗,重點是推出了Gemini 2.0 Pro全新模型

AI大神Jeff Dean 盛讚 Gemini 2.0 Pro 的編程能力

谷歌首席科學家,人工智能大神 Jeff Dean 分享了他對 Gemini 2.0 Pro 編程能力的驚歎。他表示:“我喜歡 Boggle 遊戲(一種填字遊戲)。這個演示展示了我們的 Gemini 2.0 Pro 模型在 AI Studio 中的編碼能力。令人難以置信的是,它可以通過一個相對簡單的提示,編寫出完整的代碼,包括所有正確的數據結構和搜索算法,以在 Boggle 遊戲板上找到所有有效的單詞。作為一名計算機科學家,我也很高興它第一次就正確地完成了數據結構。” 他還幽默地用了 "Discombobulating!" (令人困惑/震驚)來形容

看起來 Gemini 2.0 Pro 在代碼生成方面的強大實力,即使是複雜的算法和數據結構也能輕鬆應對

主要亮點:

Gemini 2.0 Flash 全面可用: 12 月發佈的實驗性版本 Gemini 2.0 Flash 現已正式推出。這款高效的模型以低延遲和增強的性能著稱,是開發者的理想選擇。現在,開發者可以通過 Google AI Studio 和 Vertex AI 中的 Gemini API 構建生產級應用

Gemini 2.0 Pro Experimental 發佈: 這是一款實驗性的新模型,專為代碼性能和複雜提示而優化。它在代碼生成、理解複雜問題、推理能力方面表現出色,擁有高達 200 萬個 token 的上下文窗口,能夠分析和理解大量信息。Gemini Advanced 用户可以在 Gemini 應用中體驗這款模型

Gemini 2.0 Flash-Lite 亮相: 這是 Gemini 2.0 系列中最具成本效益的模型。它在保持與 1.5 Flash 相同速度和成本的同時,提供了更高的質量,並在大多數基準測試中超越了 1.5 Flash。它同樣支持 100 萬 token 的上下文窗口和多模態輸入

2.0 Flash Thinking Experimental 面向 Gemini 應用用户: 此前在 Google AI Studio 中提供的 2.0 Flash Thinking Experimental 模型現在也向 Gemini 應用用户開放,用户可以在桌面和移動端的模型下拉菜單中選擇使用

多模態能力: 所有這些模型在發佈時都將支持多模態輸入(文本輸出),並在未來幾個月內提供更多模態的全面支持

模型性能對比:

谷歌提供了一個詳細的表格,對比了 Gemini 1.5 Flash、1.5 Pro、2.0 Flash-Lite、2.0 Flash 和 2.0 Pro Experimental 在多個基準測試中的性能。以下是一些關鍵指標:

能力基准测试Gemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash-LiteGemini 2.0 FlashGemini 2.0 Pro Experimental
通用MMLU-Pro67.3%75.8%71.6%77.6%79.1%
代码LiveCodeBench (v5)30.7%34.2%28.9%34.5%36.0%

Bird-SQL (Dev)45.6%54.4%57.4%58.7%59.3%
推理GPQA (diamond)51.0%59.1%51.5%60.1%64.7%
事实性SimpleQA8.6%24.9%21.7%29.9%44.3%

FACTS Grounding82.9%80.0%83.6%84.6%82.8%
多语言Global MMLU (Lite)73.7%80.8%78.2%83.4%86.5%
数学MATH77.9%86.5%86.8%90.9%91.8%

HiddenMath47.2%52.0%55.3%63.5%65.2%
长上下文MRCR (1M)71.9%82.6%58.0%70.5%74.7%
图像MMMU62.3%65.9%68.0%71.7%72.7%
音频CoVoST2(21 lang)37.440.138.439.040.6
视频EgoSchema (test)66.8%71.2%67.2%71.1%71.9%

寫在最後

這次發佈的的重點Gemini 2.0 Pro,從現有的信息來看,沒有達到我的預期,本以為2.0 Pro會是谷歌的一個殺手鐧,至於編程能力究竟和OpenAI o3 mini high,Claude 3.5 sonnet,DeepSeek R1那個更強,還有待遇進一步測試

但是谷歌依舊很良心,模型全部免費使用,Gemini 2.0 Pro每天50次提問,其他都是1500次免費額度

參考:https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/

最新