首页新闻资讯正文

新增GUI Agent能力！豆包1.5·视觉深度思考模型可完成多端复杂任务

11 新闻资讯 2025年05月13日

　　新浪科技讯 5月13日下午消息，今日在 FORCE LINK AI 创新巡展·上海站，火山引擎官方表示，新发布的豆包1.5·视觉深度思考模型（Doubao-1.5-thinking-vision-pro），激活参数仅20B，但具备强大的多模态理解和推理能力，在60个公开评测基准中，有38个取得 SOTA 表现，在视频理解、视觉推理、GUI Agent能力等方面均处于之一梯队。目前，该模型已在火山方舟上线。

（图侵删）

　　在视频理解方面，支持动态帧率采样，视频时序定位能力显著增强，结合向量搜索，可精准定位视频中与文本描述相对应的片段。

　　同时，新增视频深度思考能力。模型学习了数万亿多模态标记数据，掌握广泛视觉知识，结合强化学习，使视觉推理能力大幅提升。例如，在复杂的图形推理题中，模型提出假设，进行推理检验，当发现和假设不一样时，还能进行不断反思，提出新的猜测，直到得出正确答案。

　　此外，该模型新增GUI Agent能力。基于强大的GUI定位性能，可在PC端、手机端等不同环境中完成复杂交互任务。例如，可对新开发的APP功能进行自动化检测，目前该功能已经应用于字节跳动多款APP产品的开发测试中。（罗宁）

宁德时代香港发行接受认购势将成为今年全球最大IPO交易

广发策略：抛开模糊的外部环境和利润的大起大落，哪些板块订单在改善？

A股回购月榜：4月官宣回购计划公司环比大增超4倍，拟回购金额上限超700亿元！紫金矿业三天扫货10亿元！

上海发布首份直播电商行业自律公约，禁止虚假宣传、商业诋毁

伊比利亚半岛罕见大停电，蜡烛被抢购一空、政府呼吁少打电话

“男人的衣柜”在这个春节被背叛了

美国纽瓦克国际机场运营恢复正常美交通部长：系统很老旧

优矩控股获Autumn Harvest Ltd增持30.37亿股每股作价0.7港元