← 返回看板

📊 数据质量标准方案 · v2.0

📅 v1.0:2026-06-22 → v2.0:2026-06-23 🏢 适用范围:公司数据资产全量数据表(61 张表,307 字段) ⚠ v2.0 重大变更:单一体系 → 双系统架构

📌 v2.0 重大变更说明

🔀 零、为什么拆成两套体系

v1.0 的六维度评估(完整性、准确性、唯一性……)评估对象是数据值,但当时手中只有元数据。
这导致了根本性的错位——拿"有没有 NOT NULL 约束"去估算"完整性",拿"更新频率标了实时"去估算"及时性"。

系统一(设计质量) │ │ 评估对象:Schema / DDL │ 核心问题:表建得好不好? │ 数据来源:已有元数据 → ✅ 现在就能评 │ ▼ 系统二(值质量) │ │ 评估对象:Row / 实际记录 │ 核心问题:数据填得对不对? │ 数据来源:需连库跑 SQL → ⏳ 连库后启用 │ ▼ 整改闭环:先修设计 → 再洗数据 → 设规则防复发

两系统的协作关系:系统一告诉你哪些表和字段"先天不足"(如 bp_article 用了 smallint 存 boolean), 系统二告诉你这些设计缺陷产生了多少实际脏数据。整改时先修 Schema,再清洗历史数据,最后设置规则防止复发。

🏗 一、系统一:数据库表设计质量评估

评估 Schema / DDL(字段名、数据类型、主键、约束、关联关系)。
基于已有元数据,无需连接数据库,✅ 现在就能评估

六大评估维度

维度核心问题检测方式
主键设计有没有主键?复合主键合理吗?检查字段明细中主键列的标注
约束设计NOT NULL / UNIQUE / DEFAULT 覆盖度检查可空标记、默认值设定
类型规范boolean 用 smallint?date 用 varchar?数据类型 vs 实际语义匹配
命名规范snake_case?前缀一致?有无模糊词?字段名模式扫描、通用词检测
关联设计外键字段有无索引?Join 路径可追溯?ID 字段模式匹配、关联检查
冗余度同一概念跨表重复定义?跨表字段名比对

等级标准

等级分数含义处置
🟢 A 级≥ 90设计优良纳入设计规范模板
🔵 B 级75–90设计良好记录改进项
🟡 C 级60–75存在短板限期整改
🔴 D 级< 60需重构冻结 DDL,专项评审

已产出工具

系统一_表设计质量评估.xlsx6 个工作表:字段映射表、规则库、评分表、问题台账、仪表盘、使用说明
系统一_表设计质量分析报告.html基于 61 张表 + 307 字段的逐表分析,含 76 条风险
📌 分析结论摘要
· 61 张表中仅 6 张有完整字段明细(55 张处于"盲检"状态)
· 3 张表完全无主键 → P0 严重
· 24 个布尔字段用了 smallint/integer、6 个日期字段存为 varchar
· 可空字段占比 96%(295/307),大量业务字段缺少 NOT NULL 保护

📋 二、系统二:数据值质量评估

评估 实际数据记录 / Row(每个字段的具体值)。
需连接数据库执行 SQL 查询,⏳ 连库后启用

六大评估维度

维度核心问题检测方式
完整性该有的数据都有吗?COUNT(*) WHERE col IS NULL
准确性格式/逻辑是否符合规则?正则校验、数值范围校验
唯一性主键真不重复?COUNT(DISTINCT pk) vs COUNT(*)
及时性数据在 SLA 内到位?MAX(update_time) vs 时效阈值
一致性跨表值一致?LEFT JOIN ... WHERE mismatched
有效性值域之外的值占比?枚举/值域列表校验

维度量化公式

完整性 = (非空记录数 / 应记录总数) × 100% 准确性 = (通过校验规则记录数 / 抽检总数) × 100% 唯一性 = (1 − 重复记录数 / 总记录数) × 100% 及时性 = TIMELY_COUNT / TOTAL_COUNT × 100%

SLA 分级

数据类型SLA典型表
日更类≤ T+1 自然日招投标资讯
周更类≤ T+3 自然日政策数据
月更类≤ T+5 自然日月度统计报表
基础类变动时更新医保编码标准库

推荐权重(按表类型)

表类型完整性准确性唯一性及时性一致性有效性
主数据表20%25%25%10%10%10%
交易/事件表20%20%10%25%15%10%
编码/标准表20%25%15%10%15%15%
有效性 vs 准确性:有效性是"形式上符合规则"(范围对、类型对),准确性是"实际上反映真实情况"(内容对)。
例如:医保编码格式正确但指向错误药品 → 有效性通过、准确性不通过。

已产出工具

系统二_数据值质量评估.xlsx6 个工作表:校验规则库(含 20 条 SQL 模板)、权重配置、检查记录、问题台账、仪表盘
系统二_数据值质量评估体系说明.html使用指南,含各维度 SQL 模板、权重逻辑、连库后操作流程

👥 三、考核标准与责任机制

🏭 数据生产者
采集 / 录入方
考核:录入一次通过率 ≥ 98%
🛠 数据治理者
规则制定、监控
考核:监控覆盖率 ≥ 90%
📦 数据消费者
业务使用方
考核:主动问题反馈率

核心 KPI

≥80%
核心表 A 级占比(双系统、月度)
≤3天
问题平均关闭时长(月度)
≥98%
新入库数据一次通过率

问题分级与响应

级别定义响应关闭
P0 严重影响核心业务,D 级质量2h24h
P1 重要影响部分功能,C 级质量4h3 工作日
P2 一般存在隐患1 工作日1 周
P3 建议持续优化纳入迭代下周期

🗓 四、分阶段实施路径

Phase
1
当前–4周

表设计质量夯实

补全 55 张缺字段明细的表 → 评审 3 张无主键表的主键方案 → 修正 24 个类型错误字段 → 建立新表上线前必评机制

✅ 验收:系统一核心表 B 级及以上占比 ≥ 60%

Phase
2
第5–8周

值质量规则搭建

为核心表字段编写校验规则 → 建立跨表一致性映射 → 连库后执行 SQL 模板产出基准报告 → 启动周度巡检

✅ 验收:核心表监控覆盖率 ≥ 80%,仪表盘可用

Phase
3
第9周起

双系统持续运营

月度质量评审(三方参与)→ 季度更新规则库 → 根因分析闭环(设计问题→修 Schema,值问题→洗数据)→ 纳入 OKR/KPI

✅ 验收:双系统 A 级 ≥ 80%,问题关闭 ≤ 3 天,月度评审稳定 ≥ 3 个月

📁 五、配套文件总览

数据质控目录下已输出的全部文件:

文件类型说明
数据质量标准方案.md源文档本方案 Markdown 版(v2.0)
数据质量标准方案.html预览版同内容 HTML 版,可直接预览/汇报
系统一_表设计质量评估.xlsx工具集6 Sheet,零公式错误,含字段映射/规则库/评分/台账/仪表盘
系统一_表设计质量分析报告.html分析报告基于 61 表 + 307 字段的全量表设计质量分析
系统二_数据值质量评估.xlsx工具集6 Sheet,含 20 条 SQL 模板,连库即用
系统二_数据值质量评估体系说明.html使用指南值质量体系全维度 SQL 模板 + 操作流程
医院会员-sqlserver.xlsx原始数据表名清单 + 字段明细(来源)
数据云服务-sqlserver.xlsx原始数据表名清单 + 字段明细(来源)
智链云-pgsql.xlsx原始数据表名清单 + 字段明细(来源)

💡 六、关键原则总结

① 先评设计、再查值

系统一先发现结构性问题,系统二再量化影响面

② 先量后治

先测出来问题在哪,再对症下药

③ 分级管理

核心表重点管、辅助表适度管,资源集中刀刃上

④ 规则渐进

先从非空/去重做起,再加精度/逻辑校验

⑤ 自动化优先

能用 SQL/正则检的不用人工检

⑥ 不追求完美

找到"够用"临界点,99.9% 成本可能是 95% 的 10 倍