同花顺 Logo
AIME助手
问财助手
百度千帆深度研究 Agent 登顶权威评测榜单 DeepResearch Bench
2026-02-04 17:35:17
来源:IT之家
分享
文章提及标的
百度--
人工智能--
Benchmark--

2 月 4 日消息,深度研究智能体权威评测榜单 DeepResearch Bench 公布最新结果,百度(BIDU)千帆深度研究 Agent(Qianfan-DeepResearch Pro)凭借卓越的端到端研究能力和极高的报告产出质量,登上测评榜单榜首。在衡量研究报告含金量的四大核心维度 —— 全面性、洞察力、指令遵循度和可读性上,千帆深度研究 Agent 均实现了行业领先。

当前,深度研究(DeepResearch)正成为人工智能(885728)进化的关键分水岭。不同于传统文本生成,深度研究任务要求系统能够像人类专家一样,自主执行多步骤、可迭代的认知任务,涵盖了从复杂需求理解、广泛信息获取到深度洞察产出的全过程。深度研究 Agent 目前已广泛应用于学术综述、金融投研、商业分析等领域,能够将传统需数日的手动研究工作压缩至分钟级完成,显著提升研究与决策效率。

作为评价这一前沿赛道能力的“金标准”,DeepResearch Bench 填补了通用 AI 评测在端到端深度研究任务上的空白。现有的 Benchmark(BHE) 多聚焦于单一能力,难以覆盖长程推理与检索合成的复杂性。该榜单由领域专家设计了 100 个博士级别的研究任务,覆盖 22 个学科,并引入 RACE 报告质量评价框架与引文准确性评估,是目前全球范围内衡量 DeepResearch Agent 生产力水平最硬核、最真实的评价体系。

千帆深度研究 Agent 能够在此次评测中脱颖而出,得益于优异的技术设计,它采用 Agentic 架构,通过“任务理解-规划-执行”循环机制实现端到端研究交付,依托百度(BIDU)搜索与 RAG 技术保障信息获取的广度、可信度与相关性。两大重要设计确保了任务执行的准确性,首先采用“由粗到细”的研究路径展开方式应对任务不确定性;其次,通过深度执行路径规划与实时反思机制,系统能在每个研究节点动态评估进展、调整策略,从而有效避免幻觉与路径偏离,并确保复杂研究任务的高质量完成。

此外,在报告生成阶段,千帆深度研究 Agent 采用独立的两阶段报告渲染机制:首先产出 pivot 报告,通过优化相关推理能力,来保证逻辑一致性和内容全面性;之后使用不同的渲染工具,基于 pivot 报告渲染出最终的 markdown、html、ppt 等多形态报告,从而实现“一次研究,多形态报告”的交付。

目前,该深度研究 Agent 已上线百度(BIDU)千帆平台,用户只需输入复杂调研需求,系统即可在十几分钟内生成带引用的专业级研究报告,真正实现“分钟级”的深度洞察交付。

此次登榜是百度(BIDU)千帆 Agent Infra 强大支撑能力的集中体现。千帆 Agent Infra 提供模型、工具、Agent 开发、数据及 Agent 运行环境等一站式开发服务。平台已累计开发超 130 万个 Agents,以百度(BIDU)独家能力“百度(BIDU) AI 搜索”为代表的工具日均调用量已突破数千万次。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571涉企侵权举报

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈