我的搭子上班月余工作汇报

最近，百度搭子DuMate拿了两个第一，小小汇报一下：

PinchBench（龙虾能力榜），第一。

DeepResearch（深度研究榜），还是第一。

PinchBench登顶：

同一只虾，为什么DuMate养得更好？

Agent聪不聪明，要看实际任务的落地。PinchBench就是专门考察这个的。

结果很直接：同一个模型，搭上DuMate就是更强。

具体结合图片来看——

GPT-5.5自己裸跑，成绩是89.0%。DuMate接上同一个GPT-5.5，直接拉到93.3%——提升了 4.3 个百分点。

Claude Opus 4.7裸跑 91.6%，DuMate接上它，跑出93.2%。

更关键的是看平均分。原生GPT-5.5平均只有 74.4%，Claude Opus 4.7平均72.2%。但DuMate让它们的平均分和最佳分几乎一致：93.3% / 93.3%，93.2% / 93.2%。

PinchBench是目前业内最权威的龙虾（OpenClaw）能力评测基准，专门考察各家产品驱动大模型执行Agent任务的真实水平。

龙虾圈有句话：模型是虾的大脑，但光有大脑不够，还得看谁来养、怎么养。

那为什么DuMate能把同一只“虾”养得更好？它的做法有三点：

1 端云协同的智能 Harness 调度系统：这是最核心的技术底座。它会判断任务该在哪里跑、怎么跑。

2 上下文按需加载、精准注入：通过任务语义分析和历史行为建模，预判这次执行需要哪些关键信息（用户偏好、历史交互、领域知识、工具能力），提前组装好给模型。不多不少，刚刚好。

3 持续迭代：Harness和Skills会根据大量历史执行轨迹不断自我迭代，越跑越准。

这样一来，DuMate始终能发挥出模型的能力上限。

DeepResearch登顶：

深度研究这件事，DuMate怎么做的？

说完“干活”，再说“研究”。除了龙虾榜，在深度研究方向上我们也有点小成绩：

DuMate综合分58.03，排名第一。

DeepResearch Bench是当前对深度研究型Agent最全面的评测基准，从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。

这背后是DuMate的自研Skills生态。我们构建了一套完整的Skills体系，接入了百度（BIDU）搜索、拍照解题、伐谋秒哒等百度（BIDU）全链路能力，分为基础能力层、工具集成层、业务应用层，支持模块化开发和热插拔部署。

其中最硬核的两个核心引擎：

1 Deep Search深度搜索：采用多源数据融合、语义检索、知识图谱关联，突破传统关键词匹配的局限，能从海量数据（603138）里快速锁定高价值信息。

2 Deep Research深度研究：在检索基础上叠加多轮推理、因果分析、观点抽取、趋势预测，从信息碎片里提炼出结构化洞察。

这两个引擎搭档，解决了市场调研、竞品分析、技术调研、行业洞察、政策解读等场景问题。从信息收集到筛选、分析、总结，全流程自动，最后拿出的是直接能用的研究报告。

70岁的老人用DuMate，

独立完成了从需求到交付全过程

技术很硬核，但DuMate的使用门槛，很低。

70 岁的野生动物摄影师老万，他每天要面对红外相机传回的海量视频，以前得一帧一帧找动物，眼睛受不了。

现在，他只对DuMate说了一句话：帮我把视频里有野生动物的画面挑出来，建个新文件夹，按我平时的习惯整理一份监测日志。

DuMate自动拆解任务，从识别到归档到生成日志，一条龙跑完。没写一行代码，没配一个参数。海量野生动物画面被挑选并分类整理，最后根据老万的工作习惯，生成了一份监测日志。

活儿就这样干完了。

自2026年3月上线以来，DuMate保持一天一版的更新节奏，已通过信通院两项安全测评且均获最高等级。