2月6日,在通用智能体“试金石”——Gaia(GAIA)评测中,联想(K80992)研究院凭借自主研发的新一代智能体技术(Lemon),以综合最高分91.36登顶全球榜单第一,在 Level 1至 Level 3的全难度阶梯任务中分别取得96.77、89.31、87.76的领先成绩。
Gaia(GAIA)(General AI Assistants)由Meta(META) AI(FAIR)、Hugging Face和AutoGPT社区联合提出,是目前最具权威性、也最贴近真实任务场景的智能体评测之一。
与传统大模型评测不同,Gaia(GAIA)并不关注AI掌握多少知识点,也不以单轮问答的准确率为核心指标。它评估的是AI能不能像真正的助手一样,完成真实世界里的任务。研究数据显示,人类在Gaia(GAIA)测试中的平均成功率超过90%,而即便是配备插件的GPT-4,成功率也仅约15%。
具体来看,Gaia(GAIA)中的任务通常涉及网页搜索与浏览、图像与视频理解、文档解析(Word / Excel / PDF)、编程、数学推理等多种能力组合,对智能体的多模态感知、长链条推理与执行协同提出了极高要求。
而联想(K80992)Lemon新一代智能体技术之所以能够稳定应对各种场景,关键在于以下三项核心技术优势:
深度多模态感知:联想(K80992)Lemon具有“规划—看见—理解—分析”的完整闭环能力,使其能够稳定应对真实世界中对视觉理解要求极高的任务。
深度多模态长链条多步推理:联想(K80992)Lemon采用Orchestrator–Workers架构,由Orchestrator进行全局规划,将任务动态拆解并分发给不同Worker并行执行,并在结果层进行汇总与校验。同时,通过分级、渐进式的上下文压缩机制,动态控制上下文长度,确保关键信息始终处于推理核心。
自进化记忆:Lemon引入的自进化记忆机制使它可以从历史任务的完整执行链中,自动沉淀可复用的关键信息——包括用过哪些工具、哪些步骤有效、哪些路径行不通。无论任务最终成功还是失败,都会被保留下来,成为下一次的经验。这种“经验迁移”能力,使智能体在记忆方面可以持续自进化。
△Lemon 的整体算法流程图
具有行业意义的是,Lemon采用了联想集团(HK0992)自主研发的 AgentCortex 框架,其核心能力被拆分为意图理解、任务分解与规划、工具执行、知识检索、记忆读写与任务总结等模块,并通过统一接口协同运行。
这意味着,Lemon在测试中被验证过的能力能够快速稳定地迁移到真实产品中。
目前,联想集团(HK0992)已经推出三大超级智能体,包括面向个人用户的天禧 AI、联想(K80992)Qira,以及正用于自身实践的业内首个企业超级智能体——联想(K80992)乐享。联想(K80992)研究院这些在Gaia(GAIA)等高难度环境中反复验证的新一代智能体技术,未来将应用于这些超级智能体中,使其AI能力更加强大。
面向未来,联想(K80992)研究院正在积极布局真实世界中的智能任务自动化、跨系统协同调度与多模态文档理解等关键技术,推动智能体具备更加广泛的自主进化能力,让“能办事的智能体”成为日常工作与生活中的默契队友。
联想集团(HK0992)(HKSE: 992)(ADR: LNVGY) 是一家《财富》世界500强公司。为实现“智能,为每一个可能”的公司愿景,我们开发创新技术,建设一个更加包容、值得信赖和可持续发展的数字化社会。联想集团(HK0992)致力于持续研究、设计与制造全球最完备的端到端智能设备与智能基础架构产品组合,引领和赋能智能化新时代的转型变革,为全球亿万消费(883434)者打造更好的体验和机遇,携手成就未来。欢迎访问联想集团(HK0992)官方网站 https://www.lenovo.com,并关注“联想集团(HK0992)”微博(WB)及微信公众号等社交媒体官方账号,获取联想集团(HK0992)最新动态。
