在数字中国战略深入推进、政法工作数字化转型加速落地的背景下,依托多年技术沉淀与行业深耕经验,同方股份(600100)旗下同方数科正式推出全要素数据治理解决方案,为检察、法院、司法行政等政法领域提供从非结构化数据到结构化价值的全链路支撑,助力政法工作提质增效、合规运行。
五大流程助力政法全要素数据治理
全要素数据治理解决方案构建文件采集、要素定义、要素提取、数据审核、数据应用的全链路闭环,实现非结构化文件从源头获取到最终价值转化的全流程管理,确保数据在标准化处理中完成从原始形态到业务应用的有序流转。具体功能及流程如下。
来源识别、采集任务、图像处理
文件采集
根据业务需求,将非结构化法律文书材料集中采集到数据工具中。由于不同的业务需要的文书类型,数据支撑范围不同,在文件采集前明确文件存储位置、采集数据范围等,通过创建非结构化采集任务,将应用需要的非结构化数据采集到数据工具中,形成非结构化数据集。
数据采集配置
以从检察内卷中抽取不起诉书为例,需要借助数据工具配置不起诉书采集过程,在采集过程中配置数据来源、采集方式、文件类型、存放位置等信息。
创建采集任务
创建文书采集任务,配置工作流程,执行作业将数据采集到数据工具中。
特殊格式的文件内容处理。
图片加工
图像加工指对采集文件中的图片或PDF依次进行标题识别、文件组份、段落重组与OCR识别,实现文档内容结构化。
形成数据集
数据采集的结果可在在数据集中查看,为后续文件内容标注做好数据准备。
左右滑动查看完整流程
业务需求分析、要素定义、数据标注
要素定义
要素定义即明确在法律文书中的哪些关键信息会作为业务应用中的要素进行业务赋能。
在实践中,业务人员需要根据应用需求,依据相关法律法规对法律文书进行要素梳理作为文书提取的关键信息点,并人工标注要素形成标准样本,用来校验、优化模型信息提取效果。
算法提取、大模型模型、数据建模
要素提取
明确要素清单并完成样本标注后,即可依托清单与标注数据构建提取规则及算法。以《起诉书》为例,其内容的结构大致分为被告人基本信息、诉讼情况、案件事实、证据材料、案件结论,采用正则和大语言模型组合方式完成起诉书要素信息提取。
要素提取-正则算法拟合
要素提取-大模型提取
要素提取-数据模型
左右滑动查看
数据校验、人工复核、数据修正
数据审核
人工复核要素提取内容,前置纠错补漏,提升规则完备度与数据可靠性。审核过程中问题信息实时记录反馈,驱动提取算法持续优化。
案卡回填、量刑辅助、类案推荐
数据应用
数据治理人员通过数据清洗、验证、整合和审核等工序,规范数据质量,确保数据准确可用,为智能分析和知识服务筑牢数据基础,发挥其真正的数据价值。
多地部署验证方案“数智加速度”
目前,全要素数据治理解决方案在上海检察系统中广泛应用,覆盖90%以上的刑事案件,系统化开展量刑辅助能力建设,已累计辅助上海市检察官办理案件13000余件,生成法律文书10000余份,实现精准、统一、高效的智能量刑支持。其能力已在全国多省份(如黑龙江、青海、四川、广东)得到实证。
聚数据之力、汇数智之能、凝政法之智。诚邀各界洽谈全要素数据治理合作,期待与各地政法单位携手共建本地化政法数据治理体系,深挖政法数据价值,共筑智慧政法全新生态。
