最近,百度搭子DuMate拿了两个第一,小小汇报一下:
PinchBench(龙虾能力榜),第一。
DeepResearch(深度研究榜),还是第一。
PinchBench登顶:
同一只虾,为什么DuMate养得更好?
Agent聪不聪明,要看实际任务的落地。PinchBench就是专门考察这个的。
结果很直接:同一个模型,搭上DuMate就是更强。
具体结合图片来看——
GPT-5.5自己裸跑,成绩是89.0%。DuMate接上同一个GPT-5.5,直接拉到93.3%——提升了 4.3 个百分点。
Claude Opus 4.7裸跑 91.6%,DuMate接上它,跑出93.2%。
更关键的是看平均分。原生GPT-5.5平均只有 74.4%,Claude Opus 4.7平均72.2%。但DuMate让它们的平均分和最佳分几乎一致:93.3% / 93.3%,93.2% / 93.2%。
PinchBench是目前业内最权威的龙虾(OpenClaw)能力评测基准,专门考察各家产品驱动大模型执行Agent任务的真实水平。
龙虾圈有句话:模型是虾的大脑,但光有大脑不够,还得看谁来养、怎么养。
那为什么DuMate能把同一只“虾”养得更好?它的做法有三点:
1 端云协同的智能 Harness 调度系统:这是最核心的技术底座。它会判断任务该在哪里跑、怎么跑。
2 上下文按需加载、精准注入:通过任务语义分析和历史行为建模,预判这次执行需要哪些关键信息(用户偏好、历史交互、领域知识、工具能力),提前组装好给模型。不多不少,刚刚好。
3 持续迭代:Harness和Skills会根据大量历史执行轨迹不断自我迭代,越跑越准。
这样一来,DuMate始终能发挥出模型的能力上限。
DeepResearch登顶:
深度研究这件事,DuMate怎么做的?
说完“干活”,再说“研究”。除了龙虾榜,在深度研究方向上我们也有点小成绩:
DuMate综合分58.03,排名第一。
DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。
这背后是DuMate的自研Skills生态。我们构建了一套完整的Skills体系,接入了百度(BIDU)搜索、拍照解题、伐谋秒哒等百度(BIDU)全链路能力,分为基础能力层、工具集成层、业务应用层,支持模块化开发和热插拔部署。
其中最硬核的两个核心引擎:
1 Deep Search深度搜索:采用多源数据融合、语义检索、知识图谱关联,突破传统关键词匹配的局限,能从海量数据(603138)里快速锁定高价值信息。
2 Deep Research深度研究:在检索基础上叠加多轮推理、因果分析、观点抽取、趋势预测,从信息碎片里提炼出结构化洞察。
这两个引擎搭档,解决了市场调研、竞品分析、技术调研、行业洞察、政策解读等场景问题。从信息收集到筛选、分析、总结,全流程自动,最后拿出的是直接能用的研究报告。
70岁的老人用DuMate,
独立完成了从需求到交付全过程
技术很硬核,但DuMate的使用门槛,很低。
70 岁的野生动物摄影师老万,他每天要面对红外相机传回的海量视频,以前得一帧一帧找动物,眼睛受不了。
现在,他只对DuMate说了一句话:帮我把视频里有野生动物的画面挑出来,建个新文件夹,按我平时的习惯整理一份监测日志。
DuMate自动拆解任务,从识别到归档到生成日志,一条龙跑完。没写一行代码,没配一个参数。海量野生动物画面被挑选并分类整理,最后根据老万的工作习惯,生成了一份监测日志。
活儿就这样干完了。
自2026年3月上线以来,DuMate保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。
