首页/ 资讯/ 财经新闻
中国信通院王强等:摸清数据底数,筑牢AI基石——以行业数据资源调查驱动行业高质量数据集建设
发表时间:2026-06-30

一、两项部委政策共同指向“摸清数据底数”


2026年4月,工业和信息化部、国家数据局联合印发通知,正式启动2026年“模数共振”行动,面向制造业领域20个重点行业,推动人工智能模型与数据资源协同互促、同频共振。行动部署了七项重点任务,其中首要任务即是“分行业梳理行业内数据资源,明确产数主体、数据类型、资源规模等信息”,并通过数据标注、知识工程等手段提炼形成行业通识高质量数据集,每行业梳理不少于5个,形成《重点行业通识高质量数据集清单》。这意味着,在构建高质量数据集之前,必须先摸清行业数据“家底”——谁在产数、产了什么数据、数据量有多大、分布在哪些系统和环节——否则数据集建设便无从谈起。


2026年6月,国家数据局正式发布《关于推进行业高质量数据集建设行动的实施方案》,提出实施强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大行动。方案明确提出“梳理行业数据资源底数和应用场景,建立数据资源清单和数据集需求清单”,要求以应用为牵引,持续推进行业高质量数据集建设先行先试。方案进一步提出建立“物理分散、逻辑集中”的数据集资源目录,构建全生命周期管理体系。


两项政策层层递进、相互呼应,贯穿一条清晰的主线:推动行业高质量数据集建设、实现数据赋能行业,必须先行开展行业数据资源调查,扎实摸清数据底数。正如房屋建造需要先勘测地基,高质量数据集的建设也必须从摸清数据基底开始。倘若对数据资源的分布、规模、质量和归属缺乏系统了解,数据集建设就会陷入多重困境,如不知从哪里采集数据,以及采集的数据与AI训练需求不匹配。可以说,数据资源调查就是为高质量数据集建设绘制施工地图的关键前置动作。


二、开展行业数据资源调查是战略性工程


开展行业数据资源调查、摸清数据底数,并非简单的统计工作,而是推进高质量数据集建设和数据赋能行业的基础性、战略性工程,其价值体现在多个维度。其价值不仅体现在为AI提供“燃料”,更在于为行业洞察、科学决策、问题发现、机遇识别、效率提升和资源配置提供根本支撑。


摸清底数是破解数据供给瓶颈、支撑行业分析与决策的首要前提。当前,我国数据资源规模优势持续扩大,但高质量数据集供给不足仍是制约AI发展的核心痛点。传统大数据的技术路径是先收集、后挖掘统计,即先将数据堆积起来,再通过统计分析去挖掘价值。高质量数据集则要求“先明确需求,后定向采集”,是为AI算法“量身定制”的精准原料。然而,许多行业对自身拥有的数据资源缺乏系统认知,数据散落在不同部门、不同系统中,格式不统一、标准不一致,“有数据、不知数”的现象普遍存在。只有通过系统化的数据资源调查,才能回答“有什么数据、数据在哪、数据质量如何”这些基础问题,为后续的数据采集、加工、标注和数据集构建奠定基础。没有清晰的“数据地图”,高质量数据集建设便如无源之水、无本之木,行业管理者也难以发现关键瓶颈、识别潜在机遇。


摸清底数是发现问题、寻找机遇、优化资源配置的关键抓手。数据资源调查不仅是一次“家底盘点”,更是一次对行业运行状态的深度体检。通过调查,可以清晰看到哪些环节数据富集但利用低效,这些环节可能隐藏着提质增效的机会;哪些领域数据缺失或质量不高,可能就是制约行业发展的短板;哪些数据资源跨企业、跨环节具有互补性,可能成为优化资源配置、催生新业态的突破口。中国科学院院士、大数据分析与应用技术国家工程实验室主任张平文曾指出,“摸清我国数据资源的规模、结构与发展趋势等基本盘,剖析数据在生产、存储、计算、流通和应用等各环节的基本面,对于我国进一步推动数据价值释放、形成数据产业具有重要作用”。因此,数据资源调查的真正价值在于:将数据从静态的资源转化为动态的洞察力,帮助企业和管理部门精准定位痛点、超前布局机遇、高效调配要素。


摸清底数是服务科学决策和精准施策、提升行业治理效能的重要支撑。对于行业管理部门而言,只有掌握了准确的数据资源底数,才能科学制定数据集建设规划,合理配置资源,避免重复建设和低效投入。对于企业而言,摸清自身数据底数有助于发现数据资产价值、优化数据治理策略、明确AI应用的发力方向。当各方都清楚地知道数据“在哪里、有多少、怎么样”,就能在数据集建设中实现供需精准匹配,从而从源头上提升AI赋能的效率与效果,推动行业整体资源配置水平跃升。


摸清底数是提升产业链数据安全与韧性、保障高质量发展的内在要求。掌握高质量、主权可控的优质数据资源,不仅关乎我国在全球数字经济版图中的竞争地位,更直接影响产业链、供应链的韧性与安全。对于金融、能源、交通、国防等关键领域,通过行业数据资源调查可摸清重要及敏感数据的分布和流动路径,是保障数据安全、防范数据风险的基础前提。只有在摸清底数的基础上,才能有针对性地建立数据分类分级管理制度和安全管理机制,确保数据在开发利用过程中的安全可控,为行业长期健康发展筑牢防线。


三、体系化推进行业数据资源调查的实践路径


行业数据资源调查工作涉及面广、技术性强、协调难度大,需要从制度、标准、技术、组织等多个维度协同推进。同时,必须跳出单一调查思维,注重方法、框架、手段、渠道的多样化,并通过“上下结合”促进行业的系统性提升。


一是建立制度化的调查体系,实现调查工作常态化、规范化。参照国家数据局《全国数据资源统计调查制度》制定经验,行业层面应建立常态化的数据资源调查机制,明确调查目的、调查对象、统计范围、调查频率和组织实施方式。调查应覆盖行业内的各类数据持有主体,包括龙头企业、平台机构、科研院所、行业协(学)会等,形成覆盖面广、专业性强的工作体系。在调查方法上,可借鉴全量测算与分层抽样相结合的方法,根据不同企业规模、不同区域、不同业务板块特征进行科学抽样,再将各层级的样本数据结合,实现对总体目标量的估算。同时,建立调查结果的动态更新机制,确保数据底数信息能够及时反映行业发展变化。


二是构建统一的数据资源目录体系,实现“一本账”管理。摸清数据底数的核心成果是形成系统化、结构化的数据资源目录。例如,南通市将“一本账”建设与政务信息化项目专项评估、数据资源普查等工作相结合,系统梳理全市600余个信息化项目,厘清“项目—系统—数据”之间的逻辑关系,实现本级数据全口径覆盖、结构化编目、动态化更新。行业层面可借鉴这一做法,构建“行业—企业—系统—数据”的多层目录体系,全面掌握行业数据的分布、类型、规模和权属等信息。在此基础上,形成数据资源清单和数据集需求清单,为高质量数据集建设提供精准指引。


三是创新运用技术工具,提升调查效率和数据质量,提升调查效率和数据质量。传统的人工填报统计方式效率低、准确性难以保证。武汉市在数据归集治理行动中创新推广应用数据探查工具,能自动发现并实时同步各委办局业务系统的数据表结构和技术元数据,相当于给分散隐藏的数据资产做一次“全身CT”。行业数据资源调查可借鉴此类经验,推广运用自动化探查、AI辅助分类、区块链存证、联邦学习等技术手段,同时结合线上问卷、线下访谈、实地核查、标杆案例深度调研等多样化渠道,形成“技术+人工”互补互验的调查模式,在降低人工成本的同时提升数据资源调查的准确性和时效性。


四是坚持以应用为牵引,实现调查与建设的闭环联动。数据资源调查不是目的,服务高质量数据集建设和AI应用才是目的。调查工作应坚持需求导向,将“场景需要什么数据”作为调查设计的重要依据。“模数共振”行动要求围绕重点行业梳理高价值场景,每个行业凝练不少于30个场景,并针对每个场景构建行业专识高质量数据集。数据资源调查应紧密对接场景需求,重点调查与高价值场景相关的数据资源存量、质量、可获取性等信息,避免“为调查而调查”。同时,将调查成果及时反馈到高质量数据集建设中,形成“调查摸底—对接—数据集建设—应用验证—反馈优化”的闭环机制。


五是建立多方协同的组织推进机制。行业数据资源调查涉及跨部门、跨层级、跨主体的多方协调,亟需建立强有力的组织保障。建议依托行业链主企业、平台机构和行业协(学)会,联合数据服务企业、科研院所、大模型厂商等组建联合调查工作组。各方可发挥自身优势,链主企业提供行业知识和产业链数据洞察,平台机构提供技术支撑和数据汇聚能力,科研院所提供方法论指导,数据服务企业提供专业工具和经验,行业协会协助开展调查组织、标准宣贯和经验推广等工作,协同推进行业数据资源调查工作。


六是注重安全合规,筑牢数据安全防线。行业数据资源调查过程中不可避免地要接触大量行业数据,其中可能涉及商业秘密、个人隐私乃至国家安全信息。行业数据资源调查应同步建立完善的安全合规机制,明确行业数据资源调查的安全边界和权限规则,对调查人员进行安全培训并签署保密协议,建立数据安全事件的应急响应预案。通过“制度+技术+管理”三位一体的安全保障体系,让各方“放心交数据、安心用数据”。


七是构建“上下结合”的系统性提升路径,从调查走向行业整体数据能力跃升。仅仅完成一次数据资源调查是不够的,更重要的是以调查为抓手,形成促进行业系统性提升的长效机制。建立从国家政策引导到行业统筹规划、再到企业落地实践的纵向传导机制,国家层面提供调查框架和标准指引,行业层面结合自身特点细化实施方案,企业层面负责数据填报和治理改进,形成“国家—行业—企业”三级联动。此外,将数据资源调查与行业数据管理能力成熟度评估、企业数据治理体系建设挂钩。推动调查成果向行业数据空间、可信数据流通平台等基础设施延伸,使“一次调查”转化为“持续优化”的数据治理生态。


四、结束语


行业数据资源调查是推进高质量数据集建设、实现数据赋能行业的地基工程。但地基之上,更要看到数据作为分析、决策、发现问题、寻找机遇、提升效率、配置资源的核心基础作用。只有跳出“就数据而谈数据”的局限,将调查工作嵌入到行业系统性提升的大框架中,扎扎实实摸清数据底数,才能有针对性地建设高质量数据集,让数据要素真正成为驱动人工智能赋能千行百业的关键力量,推动“数据—模型—场景应用”的良性循环加速运转,为人工智能高水平赋能新型工业化筑牢数据根基。


咨询热线:
400-110-9771
客服微信:
官方公众号: