引言:当数据治理遇见AI
在高校信息化建设中,数据治理始终是块"硬骨头"。教育部教育质量评估中心发布的《高等教育质量监测国家数据平台数据表格及内涵说明》,要求各高校按照统一标准构建数据模型并提交数据。传统人工建模需耗时数月,而今,我们探索出了一条AI辅助建模的新路径。
一、困局与破局:传统建模的痛点
每年秋季,高校数据部门总要经历一场"数据攻坚战":
- 100+数据表格:涵盖学校概况、教学单位、专业建设等八大类
- 3000+字段定义:每个字段需精准匹配类型、长度、约束条件
以某高校为例,按照教育部的要求我们今年需要完成数据的自动对接。按目前的进度,完成整套数据模型构建需要2人团队连续工作3个月。直到我们发现,教育部的标准化文档与数据中台的Excel模板之间,存在着天然的"翻译"空间——这正是AI可以大显身手的领域。
二、AI建模实战
第一步:文档结构化解析
使用DeepSeek等智能工具,对PDF版《内涵说明》进行深度解析:
1. 表格识别:自动提取表头、字段描述、业务规则
2. 语义理解:识别"时点数据"与"时期数据"的区别,自动标注时间属性
3. 逻辑校验:发现"专业代码必须与国标一致"等约束条件
第二步:智能映射与生成
通过定制化提示词工程,实现关键信息转化:
1. 分类名称,根据文件中所指含义定义;
2. 数据实体,以表名称作为数据实体;
3. 实体表名,以英文字母和数字定义的表名;
4. 字段名称,以英文字母和数字定义,可以采用字段名称的拼音缩写(大写);
5. 字段注释,即字段名称;
6. 类型,字段的数据类型;
7. 长度,字段的数据长度
8. 主键(是/否),该字段是否是主键
9. 是否为空(是/否)
10. 说明/备注
第三步 AI输出成果
之后,AI会生成相应的CSV格式的数据:
分类名称,数据实体,实体表名,字段名称,字段注释,类型,长度,主键,是否为空,说明/备注
学校基本信息,表1-1学校概况(时点),T1_1_XXGK,XXMC,学校名称,VARCHAR,100,是,否,只读字段
学校基本信息,表1-1学校概况(时点),T1_1_XXGK,DM,代码,VARCHAR,20,否,否,教育部编码
学校基本信息,表1-1学校概况(时点),T1_1_XXGK,YWMC,英文名称,VARCHAR,200,否,是,
三、实际效果
效率对比
- 传统方式:每人天完成10表基本信息建模,所有工作完成需要约60人天
- AI辅助:0.5人天可完成所有表格基本信息建模,所有工作完成约15人天
存在问题
- 海量表格处理瓶颈:受限于AI的输出长度,不可能一次性对所有表格进行建模,需要将任务分解,分步骤完成。
四、进化之路:持续优化方向
面对《内涵说明》中80余个复杂表格,我们通过横向切割法破解AI输出限制:按基本信息、基本情况等七大模块分组处理。对任务进行分解后,需要多次与AI进行对话,以便于AI多次输出我们想要的结果。主要思路如下:
1. 分析表格一共分几个类别;
2. 按类别分别列出该类别下有哪些表;
3. 对应每个表,分别输出模型定义文档。
如果我们以AI手机App或网页端的AI对话应用去进行这部分工作的话,那执行效果必然大打折扣。
首先,普通AI应用无法进行文件操作,因而无法保存中间结果(例如,某类别下的所有表的清单)和最终结果(Excel表格或csv文件);其次,我们需要与AI多次交互,多次输入提示词,还需要自行保存执行结果。
为解决以上问题,我们需要选用特定的工具。例如,VS Code的Roo Code等插件。
结语:人机协同的新范式
在某高校的实践中,AI将数据建模效率提升数倍,但真正的突破在于建立了一种新的人机协作模式:
- AI担任"标准化执行者",快速完成结构化转换
- 人类专家聚焦"规则制定"与"异常处理"
这种模式不仅适用于教育数据治理,更为行业数据标准化建设提供了可复制的智能解决方案。当80%的重复劳动交给AI,数据治理团队终于能腾出手来做更重要的事——让数据真正赋能教育质量提升。
(本文DeepSeek有较大贡献)