首页 小说推荐 实时讯息 百科知识 范文大全 经典语录

火山引擎发布深度思考模型,豆包发力“看图思考”

0次浏览     发布时间:2025-04-17 21:19:00    

4月17日,面向企业市场,字节跳动旗下火山引擎发布豆包1.5・深度思考模型,同步升级文生图模型 3.0、视觉理解模型,推出 OS Agent 解决方案及AI云原生推理套件,帮助企业客户构建与部署Agent(智能体)应用。

技术逻辑上,Agent是此次豆包发布系列产品的重点,而深度思考模型是其技术底座。采访中,火山引擎总裁谭待对第一财经记者表示,聊天和信息处理只是AI中的一小部分,要真正为各行各业带来变革,Agent是必经之路。

而深度思考模型正是构建Agent的基础,谭待称,模型要有能力做好思考、计划和反思,且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。

技术报告显示,豆包深度思考模型采用MoE架构,总参数为200B,激活参数仅20B。该模型还上线了一款深度思考视觉版,具备视觉推理能力,能够像人类一样对看到的事物进行联想和思考。在实际案例中,该模型可以看懂复杂的企业项目管理流程图表,快速定位关键信息;也可以结合地貌特征分析航拍图,判断区域开发可行性。竞品对比环节,根据数学推理AIME 2024 测试,豆包1.5・深度思考模型得分追平OpenAI o3-mini-high,编程竞赛和科学推理测试成绩接近o1。

多模态深度思考模型的基础之上,谭待认为Agent需要良好的架构和工具去操作数字世界和物理世界。此次火山推出的OS Agent解决方案便现场演示了由Agent操作浏览器搜索商品页、实现iPhone比价的任务。

模型与工具加速Agent落地的同时,Agent也会带来更大量的模型推理消耗。据火山引擎披露,截至2025年3月底,豆包大模型日均 tokens 调用量已达到12.7万亿,较去年5月发布时增长上百倍。为应对大规模推理需求,火山引擎打造AI云原生ServingKit 推理套件,GPU 消耗相比传统方案降低80%。

趋势之下,行业也开始出现Agent泛滥的现象,有厂商自称部署近5000个Agent。谭待认为Agent定义需要更新——简单完成打油诗等任务的已不能称为 Agent。从定性角度来看,Agent 应能完成专业度较高、耗时较长的完整任务;从技术实现角度来看,如果没有运用思考模型、缺乏反思和规划能力,也很难被认定为 Agent。

随着技术落地,今年行业对Agent的定义将会更加清晰,谭待认为或许会像自动驾驶分级一样,对Agent也进行自L1至L4的分级。但整体来看,深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样。

相关文章:

小鹏,用AI“赌”明天06-06

天工「刷新」、阶跃「聚焦」,腰部AI公司要靠智能体最后一博?06-06

这里有一辆客车驰骋全球 郑州宇通客车:为全球市场提供“中国方案”06-05

中国科学院院士褚君浩:科学教育需点燃学生好奇心06-05

乳源县人武部开展民兵支援分队防化洗消实操训练06-04

名单公布!玉林一集体三人获奖06-03

心言集团测测APP重磅推出"寻我之旅"公益活动 以科技之力开启"寻我"新纪元05-27

专访美的孙智宇:万亿规模的具身智能机器人如何“跨过这道坎”05-26