当通用大模型在聊天、写作等通用场景展现出惊人能力时,产业界却普遍面临一个尴尬的现实:一到运营商自智网络、智慧电厂管理、新能源(850101)功率预测等垂直领域,AI就容易“水土不服”。网络故障根因定位准确率上不去、设备状态评估偏差率居高不下、功率预测误差频发……这些问题的根源,并非算法不够先进,而是缺乏经过专业标注、应用验证的行业高质量数据集。
高质量数据集建设
国家政策持续加码
人工智能(885728)大模型从对话交互向决策执行、物理交互等范式跃迁,高质量数据集的供给已成为制约AI行业落地的关键瓶颈。行业亟需系统化的高质量数据集建设能力,将海量数据(603138)真正转化为可服务于AI训练与应用的“燃料”。经过采集、清洗、标注、加工等数据处理环节,行业高质量数据集可直接用于开发和训练人工智能(885728)模型,能有效提升模型性能。它不仅是“人工智能(885728)+”赋能千行百业的基础性资源,更是数据要素(886041)价值释放的核心载体。
近日,国家数据局正式印发《关于推进行业高质量数据集建设行动的实施方案》,明确聚焦国民经济重点行业,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动。方案提出,到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,加快构建“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的“数据飞轮”生态。
《实施方案》提出强化与数据基础设施建设有机联动,鼓励依托国家数据基础设施,运用隐私保护计算、可信数据空间等能力,推动数据集从分散持有向集约化、标准化供给转变。
全栈建设能力
打造高质量数据集平台
科大国创(300520)作为数据要素(886041)研发和应用的国家队,二十余年来深耕能源(850101)、电信、交通、政务等行业应用与数据治理。公司依托“行业知识积累—可信数据—行业大模型”的完整业务路径,打造了高质量数据集平台,形成从数据采集、预处理、标注、关系抽取、属性抽取到模型验证的全链条闭环能力。
同时,科大国创(300520)积极参与国家数据基础设施——长三角数据要素(886041)场试点建设,运用隐私保护计算、可信数据空间等能力,实现数据安全(885942)存储、可信流通与高效应用,形成“数据可控共享、价值可信流通”的实践样板。
深耕行业
高质量数据集赋能行业发展
基于高质量数据集平台,科大国创(300520)积极推动高知识密度的行业高质量数据集建设,公司在7大行业、领域建设/规划36个高质量数据集,目前已在多个关键行业推广应用。
国创高质量数据集平台
电信行业
科大国创(300520)围绕电信行业客服、装维调度、自智网络三大领域构建高质量数据集,构建全业务知识库,通过高质量数据集与智能体协同,显著提升运营商客服、装维、运维的自动化与智能化水平,全面赋能运营商数字化转型。
电力行业
公司围绕智慧电厂建设,构建了发电企业高质量指标体系,破解“数据多义性”难题,实现指标标准化管理与数据快速溯源。同时,将技术监督相关经验、标准、规程及历史案例系统化梳理,形成高质量问答对与知识库,支撑智能诊断与闭环管理,让“经验可沉淀、知识可传承”。
交通行业
公司承建的“数字交控数据集”成功入选安徽省首批高质量数据集建设基地,完成40多个重要信息系统接入,29项数据产品挂牌登记,实现数据产品交易变现。公司基于执法办案与培训高质量数据集,为安徽省交通运输综合执法监督局量身打造的办案助手智能体及培训助手智能体,将于今年下半年开始上线推广应用。
新能源行业
公司面向新能源(850101)功率预测场景,构建了覆盖光伏与风电(885641)的高质量数据集。数据集融合历史发电功率、数值天气预报、卫星云图、机组SCADA数据、限电检修记录、场站经纬度及地形地貌等多源异构信息,打造了光功率预测与风功率预测两大智能体,推动新能源(850101)功率预测从“人工经验修正”向“数据驱动、模型协同”转型。
政务行业
依托安徽省信用大数据平台,公司构建了覆盖信用数据全生命周期(883436)的治理体系,将公共信用信息、市场主体数据等进行标准化清洗与关联融合,形成高质量信用数据集。该数据集有效支撑了信用评价、风险预警、政务决策等应用场景,全面助力提升社会信用体系建设的智能化水平。
此外,公司基于政务高质量数据集打造的AI智能助手智能体已在安徽智慧人大系统落地应用,核心聚焦办文、办事、问法规等场景,为全省人大代表及机关用户提供明晰的事务指引和精准应答,全面赋能人大工作增质提效。
未来,科大国创(300520)将继续聚焦电信、电力、交通、政务等核心行业场景,持续深化高质量数据集在指标体系、知识复用、数据治理等环节的应用,推动形成“场景牵引数据—数据驱动模型—模型赋能应用—应用创造价值”的良性循环,助力各行业客户实现“数据可控共享、价值可信流通”,共同开启AI+行业的崭新篇章。
