新增GUI Agent能力!豆包1.5·视觉深度思考模型可完成多端复杂任务

  新浪科技讯 5月13日下午消息,今日在 FORCE LINK AI 创新巡展·上海站,火山引擎官方表示,新发布的豆包1.5·视觉深度思考模型(Doubao-1.5-thinking-vision-pro),激活参数仅20B,但具备强大的多模态理解和推理能力,在60个公开评测基准中,有38个取得 SOTA 表现,在视频理解、视觉推理、GUI Agent能力等方面均处于之一梯队。目前,该模型已在火山方舟上线。

(图侵删)

  在视频理解方面,支持动态帧率采样,视频时序定位能力显著增强,结合向量搜索,可精准定位视频中与文本描述相对应的片段。

  同时,新增视频深度思考能力。模型学习了数万亿多模态标记数据,掌握广泛视觉知识,结合强化学习,使视觉推理能力大幅提升。例如,在复杂的图形推理题中,模型提出假设,进行推理检验,当发现和假设不一样时,还能进行不断反思,提出新的猜测,直到得出正确答案。

  此外,该模型新增GUI Agent能力。基于强大的GUI定位性能,可在PC端、手机端等不同环境中完成复杂交互任务。例如,可对新开发的APP功能进行自动化检测,目前该功能已经应用于字节跳动多款APP产品的开发测试中。(罗宁)

  • 宁德时代香港发行接受认购 势将成为今年全球最大IPO交易
  • 广发策略:抛开模糊的外部环境和利润的大起大落,哪些板块订单在改善?
  • A股回购月榜:4月官宣回购计划公司环比大增超4倍,拟回购金额上限超700亿元!紫金矿业三天扫货10亿元!
  • 上海发布首份直播电商行业自律公约,禁止虚假宣传、商业诋毁
  • 伊比利亚半岛罕见大停电,蜡烛被抢购一空、政府呼吁少打电话
  • “男人的衣柜”在这个春节被背叛了
  • 美国纽瓦克国际机场运营恢复正常 美交通部长:系统很老旧
  • 优矩控股获Autumn Harvest Ltd增持30.37亿股 每股作价0.7港元
  • 中国证监会印发2025年度立法工作计划
  • 景顺长城基金总经理康乐:深化利益共担机制 筑牢高质量发展根基
  • 万豪斥资3.55亿美元收购citizenM,生活方式酒店仍受追捧
  • 汶川地震,17年了
  • 硬科技集群爆发式增长,深圳首季GDP突破8950亿元
  • 前四月全国铁路完成固定资产投资1947亿元,同比增长5.3%
  • 乘联分会:上半年车市价格竞争温和,下半年价格战或再开启
  • 抢在苹果前头 三星发布减薄30%的S25 Edge手机
  • 外盘头条:特朗普签署制药业降价行政令 谷歌推出人工智能初创企业基金 美总统暗示亲自参与俄乌会谈
  • 人民网评:守护健康证的“健康”,才有舌尖上的安全