← 返回看板

📊 系统二:数据值质量评估体系说明

评估对象:表中实际数据行的质量(连库跑SQL后启用) | 模板即用型
⏳ 待连库启用 📅 模板创建:2026-06-23 📐 配套文件:系统二_数据值质量评估.xlsx

🔄 系统一 vs 系统二:两层质量的本质区别

对比维度 系统一:表设计质量 系统二:数据值质量
评估什么 Schema/DDL — 表建得好不好? Row/记录 — 数据填得对不对?
数据来源 元数据文档(Excel) 数据库查询(需要连接权限)
现在能做吗 ✅ 能(已有61张表+6张字段明细) ⏳ 需要连库后才能做
典型问题 "表没有主键" / "布尔字段用了smallint" "主键列有145行空值" / "日期格式不统一"
评估手段 规则匹配 / 元数据分析 SQL查询 / 统计分析
六维度 主键设计 · 约束设计 · 类型规范 · 命名规范 · 关联设计 · 冗余度 完整性 · 准确性 · 唯一性 · 及时性 · 一致性 · 有效性
因果关系 系统一的问题 → 系统二的必然结果。例如:表无主键(系统一P0)→ 值质量"唯一性"必然差(系统二)

🎯 六维度定义 & SQL 模板示例

📋 完整性(25%)
权重最高 — "有没有漏填"
测量字段的空值率。主键、外键、业务必填字段不允许空值;其他字段设容忍阈值。
-- 主键空值检查 SELECT COUNT(*) AS null_count FROM {table} WHERE {pk_field} IS NULL
✅ 准确性(25%)
权重最高 — "填得对不对"
格式校验(日期格式、手机号正则)、值域检查(枚举值是否在合法列表内)、范围检查(金额不能为负)。
-- 日期格式校验 (PostgreSQL) SELECT COUNT(*) AS bad_date FROM {table} WHERE {field} !~ '^\d{4}-\d{2}-\d{2}$'
🔑 唯一性(15%)
— "有没有重复"
主键必须全局唯一;业务唯一键(如机构编码+日期)不可重复。重复数据是分析错误的主要原因之一。
-- 主键重复检查 SELECT {pk}, COUNT(*) AS cnt FROM {table} GROUP BY {pk} HAVING COUNT(*) > 1
⏱️ 及时性(15%)
— "数据有多新鲜"
数据是否在SLA内到位?招投标信息昨天的数据今天有价值吗?用 MAX(update_time) 与当前时间差来衡量。
-- 数据新鲜度检查 SELECT MAX({time_field}) AS latest, NOW() - MAX({time_field}) AS age FROM {table}
🔗 一致性(10%)
— "跨表对得上吗"
外键引用完整性(孤儿记录检查);同一业务对象在两张表中的值是否一致(如机构名称在A表和B表中是否相同)。
-- 外键孤儿记录检查 SELECT COUNT(*) AS orphan FROM {child_table} c LEFT JOIN {parent_table} p ON c.{fk}=p.{pk} WHERE p.{pk} IS NULL
🔍 有效性(10%)
— "值有意义吗"
值是否在业务合理的范围内?状态流转是否合法?ID格式是否符合国标(如统一社会信用代码18位)?
-- 状态合法性检查 SELECT COUNT(*) AS invalid FROM {table} WHERE {status_field} NOT IN ('有效','无效','待审核')

🛠️ 使用流程(连库后)

1
确认连接
获取数据库只读权限(3个库),确认可执行 SELECT/COUNT/DISTINCT
2
选择目标
从系统一的"字段维度映射表"选出要检查的表和字段
3
配置规则
在Sheet2规则库中为每个字段选SQL模板,填表名/字段名/阈值
4
执行检查
逐条执行SQL,将结果填入Sheet3质量检查记录
5
看结果
Sheet3自动算得分+等级;Sheet5仪表盘自动汇总
6
闭环
问题登记到Sheet4台账 → 根因分析 → 修复 → 验证

📋 配套模板结构

Sheet功能状态
📋 使用说明前置条件 + 使用流程 + 与系统一的关系✅ 已配置
📐 值质量规则库20条预置SQL模板(6维度全覆盖),含合格阈值和权重✅ 已预填模板
📊 质量检查记录执行结果记录区 + 公式自动计算得分/等级⏳ 待填入真实数据
🐛 值质量问题台账问题发现→分析→修复→验证全生命周期(含3条示例)✅ 框架就绪
📈 值质量仪表盘管理层KPI卡片 + 等级标准 + 操作清单⏳ 待数据填入后自动刷新

🗺️ 启用的最佳路径

建议第一步
(1天内)
拿"智链云"有字段明细的6张表做试点
这6张表我们已知所有字段名、类型、约束——具备做值质量评估的完整条件。
选2-3条SQL模板(如"主键空值检查""主键重复检查""日期格式校验"),连库跑一下看结果。
这是最低风险的验证路径——表结构已知,SQL明确,结果可预期。
建议第二步
(1周内)
先解决系统一的P0问题,再扩展值质量评估范围
3张无主键表(bp_articleproject, md_drugbidsourcehc_zb, dt_drugbidsourcehc)加上主键后,
它们的"唯一性"检查才能有意义。否则跑出来的重复行没法归因到具体记录。
建议第三步
(1个月内)
补齐55张表的字段明细后,全量跑值质量评估
补齐后系统一的平均分预计从47.3提升到65+,此时做值质量评估才能有的放矢——
你知道每个表有什么字段、什么约束,才知道应该检查什么。

📌 关键原则

配套工具:系统二_数据值质量评估.xlsx | 前置依赖:系统一_表设计质量评估.xlsx | 创建时间:2026-06-23