一年一度的WAIC正式落幕,在这“炫技场”上,各家都不吝啬拿出新产品、新技术。而相比于去年各大厂商都在展示ChatBot不同的是,今年Agent成为“新贵”。
在百度(K89888)展台,百度(K89888)文库、百度(K89888)网盘带来了8月即将上线的 GenFlow 2.0,一个集合了MoE混合专家模型、多智能体协作、主动干预与全链路内容交付的通用Agent平台。
事实上,当前市面上Agent并不少,但真正能落地复杂任务的,比较罕见,尤其是需要“并行调度多Agent”“同时产出多模态内容”“支持后链路编辑”的场景,大多数产品还无法实现。
据透露,GenFlow 2.0最大的特点是“一个入口,N种模式”,根据用户输入的需求,一个入口就能自动切换模式,更加聪明、更理解用户需求,不仅能记住用户的一切,还能灵活跟用户搭班子、解决问题,大幅度提升了人机协同体验。
早在今年4月,百度(K89888)Create 2025开发者大会上,百度(K89888)文库就率先首发GenFlow1.0版本,具有内容创作领域内行业领先的最强大的多智能体协作能力,自主调用各种模型和数百个多模态Agent,几分钟内一次性并行生成PPT、研报、海报等多模态、多格式内容。
这次升级后的GenFlow 2.0,在双端实时可用、响应速度快速提升、结果可干预的全新交互体系中实现,并且首创记忆模式和并行模式,让AI真正“记住你是谁”,并行使得任务高效完成。
六大模式,两个首创
进入GenFlow 2.0界面后,可以看到十分简洁,在对话框的右下角有两个标识,点击左边则是上传文件,右边则是发送指令。用户只需要输入一句自然语言指令,就可以由系统自动规划任务,调用不同类型的Agent同步执行任务。
用户最常用的是简单模式,GenFlow2.0可以快速给用户直接的答案,比如尤其是在跟AI交互比较频繁、解决日常聊天和生活化问题场景,比如“杭州8月份有哪些演唱会”, GenFlow2.0则直接给出答案。
而如果用户需要生成完全符合IP和人物形象的内容,GenFlow2.0就会开启通用模式,结合生文、生图以及未来生视频能力,为用户调度合理的多模态Agent,去满足用户的任务。假设让它画一张海绵宝宝在篮球上拿着粉色气球当啦啦队的图片:
在图片生成后,点击预览,界面则会一分为二,左边为任务执行的具体流程,右边则是生成的图片,点击右上角即可下载。如需调整也可以在对话框中输入更具体的风格描述。
记忆模式和并行模式为GenFlow2.0首创,其能了解用户过往和AI沟通、聊天的内容,用户授权后存在百度(K89888)网盘内的个人素材库,甚至过去用户呈现的行为要素,都能洞察,让生成的内容更加贴近用户思维习惯,能被用户直接可用。比如:我上次想去哪看演唱会来着?它在执行任务过程中就提到之前为用户详细整理过8月上海的演唱会列表,从而判断可能是上海,并且提供了主要艺人场次。
并行模式则是一次性执行所有生成任务,不是同一个Agent调用N次,而是A Agent、B Agent、C Agent,多线任务并行,解决等待时间长,任务复杂,实现一次性交付。
于是给GenFlow2.0设置了一个并行挑战赛:5分钟帮我做一份年中人形机器人(886069)融资复盘资料,包含PPT、图表、数据摘要和一页传播海报。
输入指令后,GenFlow同步调度多个 Agent,各自负责不同子任务,计时发现不到五分钟就完成了任务。在任务执行的过程中,用户还可以在思考过程中进行人工干预,要求补充内容,或者随时调用更多文件,这也是区别于OpenAI前段时间发布的ChatGPT Agent一个亮点。主动干预模式让用户可以随时叫停、纠正、修改,意味着生成内容的可调控性、自由度更高,也更易被用户信任、使用。
在内容编辑上,ChatGPT Agent在生成PPT等文件后无法编辑,而GenFlow依托于百度(K89888)文库、百度(K89888)网盘自研的融合编辑器,内容生成后可以实现自由编辑,在内容创作上灵活度更高。
在更为复杂的任务中,比如我说我需要小米汽车(886064)、问界汽车在售车型和价格信息,帮我在官方上找一下,GenFlow会灵活调用N种模式去综合处理问题。
技术底座决定能力上线
GenFlow之所以能实现6大模式的灵活切换,是AI重构后百度(K89888)文库、百度(K89888)网盘的全面融合和能力共建,打通了从“创编存管”到“找看用享”全流程环节,在行业率先拥有全模态输入、处理到输出的系统化完整交付AI能力,让AI无所不能、无处不在。底层则依托的是百度(K89888)首创的内容操作系统“沧舟OS”。
这套系统拥有对用户海量公私域内容、记忆库的全场景、全链路处理能力,通过中枢系统实现Agent之间的数据互通和智能调度;文库、网盘也已被数亿用户验证的数百项Agent,可以灵活匹配各种任务需要,最终实现全模态、全格式内容的端到端输出。
同时,GenFlow依托底层MoE(混合专家模型)架构、可以基于不同任务、步骤来调用不同模型,在成本、性能和效率上占优,在交付速度、交付质量、后链路编辑等方面远胜同类产品。
在这个系统中,AI不是一个个“工具”,而是被“调度起来的工作小组”。从你发出需求开始,系统就会判断你属于哪个场景、需要哪些模态、能否并行处理、是否需要补足上下文。
在输入端,百度(K89888)文库、网盘拥有文字、语音、图片、视频等全模态、全格式输入能力,全天候、全方位接受并响应用户需求。
为了让生态和应用发挥最大价值,百度(K89888)文库、百度(K89888)网盘基于沧舟OS,率先将MCP充分运用到产品与生态的链接上,将文库、网盘的能力通过MCP Server形式开放,供更多企业和开发者使用。目前,百度(K89888)文库与网盘已与华为、三星手机、牛听听等企业展开了深度合作。
在Agent领域,百度(K89888)更是坚定的投入者和领先者,早在2024年4月的Create大会,李彦宏将智能体视作最主流的大模型使用方式,到 当年7 月WAIC上又称其为最看好的发展方向,再到后来将其比作PC 时代的网站、移动时代的自媒体账号,从战略上每一步都在强化Agent的重要性。今年WAIC上,GenFlow2.0的预告,百度(K89888)坚定看好智能体这一发展方向有了更具象化的体现。
“AI搭子”的本质是效率,GenFlow2.0预告版已经有了这么多惊喜,8月全量上线后或许能让交付更快、更高质量。
