AI编程模型领域迎来新王?谷歌这条王炸产品多厉害? - 新闻详情

AI编程模型领域迎来新王?谷歌这条王炸产品多厉害?

来源:腾讯科技

分类: 其他

发布时间:2025-05-06 20:32:47



5月7日消息,美国当地时间周二,谷歌DeepMind人工智能研究团队发布了Gemini 2.5 Pro “I/O”,这是今年3月发布的多模态大语言模型Gemini 2.5 Pro的升级版本。

DeepMind CEO德米斯·哈萨比斯表示,这是“我们有史以来构建的最强编程模型!”



从谷歌公布的初步基准测试结果来看,哈萨比斯并非夸大其词。自从2022年底ChatGPT引爆生成式AI热潮以来,谷歌首次在关键的代码生成评估指标上全面领先,超越所有竞争对手。

最强编程模型上线

新版本的模型编号为 “gemini-2.5-pro-preview-05-06”,取代了此前的03-25版本。

目前,该模型已向Google AI Studio的独立开发者、VertexAI云平台的企业用户以及Gemini应用的普通用户开放。谷歌在博客中指出,该模型还为Gemini移动应用中的Canvas等功能提供支持。

Gemini 2.5 Pro I/O已广泛用于诸如Gemini95等开发场景。例如,模型能够自动匹配用户界面组件的视觉风格。此外,它还支持一系列高效开发工作流,包括将YouTube视频快速转换为互动学习应用,或创建响应式视频播放器、带动画的语音转写界面等复杂组件,几乎无需手动编写CSS。

作为一款专有模型,企业用户需通过谷歌的云服务平台付费使用。不过,谷歌并未调整定价或速率限制:目前使用Gemini 2.5Pro的用户将自动切换至新模型,价格仍为每百万输入token收费1.25美元,每百万输出token收费10美元,最多支持20万token的上下文窗口。

相比之下,Anthropic的Claude 3.7Sonnet定价为每百万输入token收费3美元,每百万输出token收费15美元。



Gemini API与Google AI Studio的高级产品经理洛根·基尔帕特里克(LoganKilpatrick)在开发者博客中确认,此次更新重点提升了函数调用的准确率与触发可靠性,有效解决了此前开发者普遍反馈的问题。

单条文本提示即可生成完整应用

谷歌此次更新的一大亮点在于,只需通过一条提示即可构建完整、可交互的网页应用或模拟程序,这正契合了DeepMind希望简化原型设计与开发流程的愿景。

谷歌表示,用户可以输入视觉模式或主题性提示,直接转化为可运行的代码,这显著降低了设计导向型开发者或创新团队的入门门槛。

虽然谷歌尚未公开新版Gemini 2.5Pro的底层架构及技术细节,但从实际应用效果来看,其核心目标仍是提供更加高效、直观的开发体验。

凭借其在代码生成与多模态输入方面的优势,Gemini 2.5Pro不再仅是技术实验室中的“研究模型”,而是正在成为应对真实开发挑战的实用工具。此次提前发布也表明,DeepMind有意借此响应市场需求,在I/O大会前持续保持技术领先势头。

在人类评审的网页应用生成任务中登顶

在第三方平台WebDev Arena的排行榜中,Gemini 2.5 ProPreview(05-06)在生成美观且实用的网页应用方面获得了人类评审的最高分,超越Anthropic的Claude 3.7Sonnet,登顶榜首。



谷歌新模型得分为1499.95,远高于Sonnet 3.7的1377.10。此前版本的Gemini 2.5Pro(03-25)位列第三,得分为1278.96,这意味着 I/O 版实现了221分的大幅跃升。

正如AI资深用户 “Lisan al Gaib”在社交平台上指出的那样,即便是OpenAI最近推出的GPT-4o(“o3”)都未能击败Sonnet 3.7,可见Gemini 2.5Pro I/O所取得的重大突破。

Gemini的性能提升主要反映在生成内容的可靠性、美观性与实用性等方面。

获得开发者广泛好评

多个知名开发者与平台负责人已对Gemini 2.5 ProPreview(05-06在实际生产环境中的表现给予高度评价。

Hyperbolic联合创始人兼CTO Yuchen Jin写道:“Gemini 2.5 ProPreview(05-06)现已成为我的首选编程模型。在多个高难度提示词测试中,它已超越o3(GPT-4o)和Claude 3.7Sonnet。以编写模拟水桶来回晃动的水体效果这个提示为例,其表现完全碾压另外两个模型。谷歌,这完全够格称为Gemini3了!”



AI初创公司Cognition联合创始人塞拉斯·阿尔贝蒂表示,Gemini 2.5Pro是首个成功完成复杂后端路由系统重构的AI模型,展现出近似高级开发者的决策能力。

AI编程工具Cursor的CEO迈克尔·特鲁尔表示,内部测试显示工具调用失败率明显下降,这是以往饱受诟病的问题。他认为用户将在真实开发环境中明显感受到新模型在实用性方面的提升。Cursor已将Gemini2.5 Pro集成进其编程智能体中,显示出开发者将其作为构建智能开发流程核心组件的趋势。

基于浏览器的云端协同开发平台Replit总裁米歇尔·卡塔斯塔称,Gemini 2.5Pro是“在性能与响应延迟之间取得最佳平衡的前沿模型”。他的评价暗示,Replit正考虑将其整合进自身工具中,尤其适用于对响应速度与稳定性要求较高的任务。

AI教育工作者、BlueShell私有AI聊天机器人创始人保罗·库弗特表示:“Gemini 2.5Pro在代码和界面生成方面的能力令人印象深刻。”



AI艺术工具EverArt首席执行官彼得罗·斯基拉诺指出,新版Gemini 2.5 ProI/O能够通过一个提示就生成互动模拟游戏,完美还原了“1只大猩猩大战100人”的社交媒体梗。



X用户“RameshR”(@rezmeram)展示了该模型在不到一分钟内生成的一款互动式俄罗斯方块风格拼图游戏,并配有真实音效,他在帖文中写道:“休闲游戏行业要完蛋了!!”

这些赞誉从不同维度验证了Gemini 2.5 Pro的实用性提升,也预示着其将在更多开发平台中获得广泛采纳。

评论 (0)