谷歌首席科學家，人工智能大神 Jeff Dean 分享了他對 Gemini 2.0 Pro 編程能力的驚歎。他表示：“我喜歡 Boggle 遊戲（一種填字遊戲）。這個演示展示了我們的 Gemini 2.0 Pro 模型在 AI Studio 中的編碼能力。令人難以置信的是，它可以通過一個相對簡單的提示，編寫出完整的代碼，包括所有正確的數據結構和搜索算法，以在 Boggle 遊戲板上找到所有有效的單詞。作為一名計算機科學家，我也很高興它第一次就正確地完成了數據結構。” 他還幽默地用了 "Discombobulating!" (令人困惑/震驚)來形容

I love the game of Boggle. This demo showcases our Gemini 2.0 Pro model’s coding abilities in AI Studio. It is mind boggling to think that it can write the full piece of code, including all the right data structures and search algorithms to find all valid words on a Boggle… https://t.co/bqgvKwOVRm pic.twitter.com/EHRI2VcnqR
— Jeff Dean (@JeffDean) February 5, 2025

看起來 Gemini 2.0 Pro 在代碼生成方面的強大實力，即使是複雜的算法和數據結構也能輕鬆應對

主要亮點：

Gemini 2.0 Flash 全面可用： 12 月發佈的實驗性版本 Gemini 2.0 Flash 現已正式推出。這款高效的模型以低延遲和增強的性能著稱，是開發者的理想選擇。現在，開發者可以通過 Google AI Studio 和 Vertex AI 中的 Gemini API 構建生產級應用

Gemini 2.0 Pro Experimental 發佈：這是一款實驗性的新模型，專為代碼性能和複雜提示而優化。它在代碼生成、理解複雜問題、推理能力方面表現出色，擁有高達 200 萬個 token 的上下文窗口，能夠分析和理解大量信息。Gemini Advanced 用户可以在 Gemini 應用中體驗這款模型

Gemini 2.0 Flash-Lite 亮相： 這是 Gemini 2.0 系列中最具成本效益的模型。它在保持與 1.5 Flash 相同速度和成本的同時，提供了更高的質量，並在大多數基準測試中超越了 1.5 Flash。它同樣支持 100 萬 token 的上下文窗口和多模態輸入

2.0 Flash Thinking Experimental 面向 Gemini 應用用户： 此前在 Google AI Studio 中提供的 2.0 Flash Thinking Experimental 模型現在也向 Gemini 應用用户開放，用户可以在桌面和移動端的模型下拉菜單中選擇使用

多模態能力： 所有這些模型在發佈時都將支持多模態輸入（文本輸出），並在未來幾個月內提供更多模態的全面支持

模型性能對比：

谷歌提供了一個詳細的表格，對比了 Gemini 1.5 Flash、1.5 Pro、2.0 Flash-Lite、2.0 Flash 和 2.0 Pro Experimental 在多個基準測試中的性能。以下是一些關鍵指標：

能力	基准测试	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash-Lite	Gemini 2.0 Flash	Gemini 2.0 Pro Experimental
通用	MMLU-Pro	67.3%	75.8%	71.6%	77.6%	79.1%
代码	LiveCodeBench (v5)	30.7%	34.2%	28.9%	34.5%	36.0%
	Bird-SQL (Dev)	45.6%	54.4%	57.4%	58.7%	59.3%
推理	GPQA (diamond)	51.0%	59.1%	51.5%	60.1%	64.7%
事实性	SimpleQA	8.6%	24.9%	21.7%	29.9%	44.3%
	FACTS Grounding	82.9%	80.0%	83.6%	84.6%	82.8%
多语言	Global MMLU (Lite)	73.7%	80.8%	78.2%	83.4%	86.5%
数学	MATH	77.9%	86.5%	86.8%	90.9%	91.8%
	HiddenMath	47.2%	52.0%	55.3%	63.5%	65.2%
长上下文	MRCR (1M)	71.9%	82.6%	58.0%	70.5%	74.7%
图像	MMMU	62.3%	65.9%	68.0%	71.7%	72.7%
音频	CoVoST2(21 lang)	37.4	40.1	38.4	39.0	40.6
视频	EgoSchema (test)	66.8%	71.2%	67.2%	71.1%	71.9%