拓尔思参与共建人工智能数据训练场示范基地大模型语料库
3月29日,由北京市发展和改革委员会、北京市经济和信息化局、北京市科学技术委员会等共同主办的2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会在京召开。会上,人工智能大模型语料库首批100个高质量数据集正式发布,拓尔思(300229)以优质的高质量数据成功入选,成为共建单位。
本次人工智能大模型高质量数据集由北京国际大数据交易所与北京人工智能产业联盟牵头并联合企事业单位共同发布,汇聚了36家机构及企业提供的100余个语料数据,数据总量逾150PB,涉及科技创新、金融服务、医疗健康等20多个应用场景,涵盖了专业知识问答、互联网舆情资讯、多语种音视频等多领域、多模态的数据语料,为大模型训练提供更加精准可靠的数据服务。
拓尔思作为业界领先的人工智能、大数据及数据安全产品及服务提供商,此次参与共建的数据以互联网主流新闻网站数据为主,包括网站及客户端数据和电子报数据,充分证明了其在数据积累与处理方面的专业能力。
自2010年建设大数据中心以来,拓尔思积累了高商业价值的可运营大数据资源,拥有了规模及质量均位列业界前茅的数据资产。目前数据中心总数据量超2000亿,具有信源覆盖全、采集梳理精、更新时效快、数据质量高的特点,有效提升了大模型语料库的规模和数据集的质量。
未来,拓尔思将协同产学研各界,为人工智能大模型训练提供高质量数据支撑,支持北京人工智能训练场示范基地建设。同时也将深入挖掘高质量数据的潜力与价值,探索以高质量数据优势推动北京数字经济发展的新路径。
0人
- 每日推荐
- 股票频道
- 要闻频道
- 港股频道
- 特斯拉股价狂飙!FSD或将进入中国
- 重磅!《私募证券投资基金运作指引》正式落地
- 中方证实:哈马斯与法塔赫在北京磋商,取得积极进展
- 民营体检机构押注AI,创新技术如何赋能行业发展
- A股十大“盈利王”“分红王”出炉
- 4月30日PA6产业链情报
- 4月30日氢氟酸产业链情报
- “人工智能+”浪潮下,财务领域如何突围
- 磷酸铁锂电池续航突破1000公里,主流市场电动车里程焦虑有望缓解