在“数据要素价值释放年”背景下,央国企凭借海量数据资源和技术整合优势,成为高质量数据集建设的主力军。国家数据局2025年公布首批104个高质量数据集典型案例中,中国电信自主研发的“网络大模型高质量数据集”从663个申报项目中脱颖而出,成功入选国家级示范名单。此前,该数据集已获国务院国资委“央企人工智能行业高质量数据集优秀建设成果”认定,标志着中国电信在通信领域高质量数据集建设上实现领跑。
中国电信6TB云网知识体系核心架构
该项目以“5+2”云网知识体系为核心架构,全面覆盖接入、传输、核心、数据、业务五大网络层级,并融入云资源、网络安全两大维度,形成体系化、结构化的通信知识框架。这一架构精准破解大模型在通信行业落地时的痛点:通用性与专业性鸿沟、知识冲突与幻觉、深度数据匮乏。
在组织机制上,中国电信确立“组织、流程、运营、安全”四大支柱,构建科学严谨的数据治理体系:
建立集团-省公司多级协同机制,通过岗位职责明确、质量追溯、周期联动,确保流程规范、权责清晰。
各地省公司结合区域业务特点参与场景化知识库建设,实现全局一致性与个性化并重。
通过聚合多源异构数据(设备运行状态、网络流量、运维日志、故障工单、用户行为轨迹等),建成总规模6TB的高质量、多模态领域数据集,涵盖超数百个场景化知识库。该数据集融合文本、图像、音频、视频等多模态形式,支持实时性强、动态更新的通信场景需求。
关键技术突破与全生命周期运营
中国电信网络大模型团队融合多源智能解析、动态清洗、多级去重、数据合成等先进技术,研发高精度隐私保护算法与高效知识图谱流水线。首创SIE(来源-索引-编码)分层建库技术,实现多模态数据的分钟级建库入库,打通实时数据与大模型动态交互链路。
创新构建“生产-规划-采集-加工-应用-评估-反馈”全生命周期闭环运营模式,确保数据集持续优化与价值释放。依托统一建设的启明知识管理平台,提供高效数据集加工工具、分钟级建库工具、精准数据增强服务及动态管理能力。截至目前,知识增强服务检索量突破千万次,准确率稳定在90%以上。
技术层面,多模态混合检索架构及重排序技术显著提升隐性知识发现效率与召回准确率,构建通信行业高质量数据治理典范。该数据集广泛应用于故障预测、网络优化、资源调度、智能客服等核心业务场景,显著提升运营效率与服务体验。
央国企高质量数据集建设的示范意义
中国电信案例凸显央国企在高质量数据集建设中的引领作用:
规模与专业深度并重:6TB规模远超行业平均水平,同时聚焦通信专业领域,实现“专业深度+实时进化”双能力。
跨域融合与生态协同:通过启明平台面向行业伙伴开放数据集与工具能力,支持数据检索、知识地图构建、智能问答、决策支持等服务。已联合制造业、能源、城市管理等领域头部企业,开展跨行业数据应用合作,推动数字化转型升级。
政策响应与价值释放:响应国家数据局《关于促进企业数据资源开发利用的意见》,支撑“人工智能+”行动,助力云网运营全面AI化、自智水平达L4级,惠及企业及产业链客户。
央国企如中国电信、中国移动(九天大模型)、中国联通(元景大模型)等,正通过海量自有数据与行业融合,构建超万亿Token训练集,领跑高质量数据集供给。
