v1.0 的六维度评估(完整性、准确性、唯一性……)评估对象是数据值,但当时手中只有元数据。
这导致了根本性的错位——拿"有没有 NOT NULL 约束"去估算"完整性",拿"更新频率标了实时"去估算"及时性"。
两系统的协作关系:系统一告诉你哪些表和字段"先天不足"(如 bp_article 用了 smallint 存 boolean), 系统二告诉你这些设计缺陷产生了多少实际脏数据。整改时先修 Schema,再清洗历史数据,最后设置规则防止复发。
评估 Schema / DDL(字段名、数据类型、主键、约束、关联关系)。
基于已有元数据,无需连接数据库,✅ 现在就能评估。
| 维度 | 核心问题 | 检测方式 |
|---|---|---|
| 主键设计 | 有没有主键?复合主键合理吗? | 检查字段明细中主键列的标注 |
| 约束设计 | NOT NULL / UNIQUE / DEFAULT 覆盖度 | 检查可空标记、默认值设定 |
| 类型规范 | boolean 用 smallint?date 用 varchar? | 数据类型 vs 实际语义匹配 |
| 命名规范 | snake_case?前缀一致?有无模糊词? | 字段名模式扫描、通用词检测 |
| 关联设计 | 外键字段有无索引?Join 路径可追溯? | ID 字段模式匹配、关联检查 |
| 冗余度 | 同一概念跨表重复定义? | 跨表字段名比对 |
| 等级 | 分数 | 含义 | 处置 |
|---|---|---|---|
| 🟢 A 级 | ≥ 90 | 设计优良 | 纳入设计规范模板 |
| 🔵 B 级 | 75–90 | 设计良好 | 记录改进项 |
| 🟡 C 级 | 60–75 | 存在短板 | 限期整改 |
| 🔴 D 级 | < 60 | 需重构 | 冻结 DDL,专项评审 |
系统一_表设计质量评估.xlsx | 6 个工作表:字段映射表、规则库、评分表、问题台账、仪表盘、使用说明 |
系统一_表设计质量分析报告.html | 基于 61 张表 + 307 字段的逐表分析,含 76 条风险 |
评估 实际数据记录 / Row(每个字段的具体值)。
需连接数据库执行 SQL 查询,⏳ 连库后启用。
| 维度 | 核心问题 | 检测方式 |
|---|---|---|
| 完整性 | 该有的数据都有吗? | COUNT(*) WHERE col IS NULL |
| 准确性 | 格式/逻辑是否符合规则? | 正则校验、数值范围校验 |
| 唯一性 | 主键真不重复? | COUNT(DISTINCT pk) vs COUNT(*) |
| 及时性 | 数据在 SLA 内到位? | MAX(update_time) vs 时效阈值 |
| 一致性 | 跨表值一致? | LEFT JOIN ... WHERE mismatched |
| 有效性 | 值域之外的值占比? | 枚举/值域列表校验 |
| 数据类型 | SLA | 典型表 |
|---|---|---|
| 日更类 | ≤ T+1 自然日 | 招投标资讯 |
| 周更类 | ≤ T+3 自然日 | 政策数据 |
| 月更类 | ≤ T+5 自然日 | 月度统计报表 |
| 基础类 | 变动时更新 | 医保编码标准库 |
| 表类型 | 完整性 | 准确性 | 唯一性 | 及时性 | 一致性 | 有效性 |
|---|---|---|---|---|---|---|
| 主数据表 | 20% | 25% | 25% | 10% | 10% | 10% |
| 交易/事件表 | 20% | 20% | 10% | 25% | 15% | 10% |
| 编码/标准表 | 20% | 25% | 15% | 10% | 15% | 15% |
系统二_数据值质量评估.xlsx | 6 个工作表:校验规则库(含 20 条 SQL 模板)、权重配置、检查记录、问题台账、仪表盘 |
系统二_数据值质量评估体系说明.html | 使用指南,含各维度 SQL 模板、权重逻辑、连库后操作流程 |
| 级别 | 定义 | 响应 | 关闭 |
|---|---|---|---|
| P0 严重 | 影响核心业务,D 级质量 | 2h | 24h |
| P1 重要 | 影响部分功能,C 级质量 | 4h | 3 工作日 |
| P2 一般 | 存在隐患 | 1 工作日 | 1 周 |
| P3 建议 | 持续优化 | 纳入迭代 | 下周期 |
补全 55 张缺字段明细的表 → 评审 3 张无主键表的主键方案 → 修正 24 个类型错误字段 → 建立新表上线前必评机制
✅ 验收:系统一核心表 B 级及以上占比 ≥ 60%
为核心表字段编写校验规则 → 建立跨表一致性映射 → 连库后执行 SQL 模板产出基准报告 → 启动周度巡检
✅ 验收:核心表监控覆盖率 ≥ 80%,仪表盘可用
月度质量评审(三方参与)→ 季度更新规则库 → 根因分析闭环(设计问题→修 Schema,值问题→洗数据)→ 纳入 OKR/KPI
✅ 验收:双系统 A 级 ≥ 80%,问题关闭 ≤ 3 天,月度评审稳定 ≥ 3 个月
数据质控目录下已输出的全部文件:
| 文件 | 类型 | 说明 |
|---|---|---|
数据质量标准方案.md | 源文档 | 本方案 Markdown 版(v2.0) |
数据质量标准方案.html | 预览版 | 同内容 HTML 版,可直接预览/汇报 |
系统一_表设计质量评估.xlsx | 工具集 | 6 Sheet,零公式错误,含字段映射/规则库/评分/台账/仪表盘 |
系统一_表设计质量分析报告.html | 分析报告 | 基于 61 表 + 307 字段的全量表设计质量分析 |
系统二_数据值质量评估.xlsx | 工具集 | 6 Sheet,含 20 条 SQL 模板,连库即用 |
系统二_数据值质量评估体系说明.html | 使用指南 | 值质量体系全维度 SQL 模板 + 操作流程 |
医院会员-sqlserver.xlsx | 原始数据 | 表名清单 + 字段明细(来源) |
数据云服务-sqlserver.xlsx | 原始数据 | 表名清单 + 字段明细(来源) |
智链云-pgsql.xlsx | 原始数据 | 表名清单 + 字段明细(来源) |
系统一先发现结构性问题,系统二再量化影响面
先测出来问题在哪,再对症下药
核心表重点管、辅助表适度管,资源集中刀刃上
先从非空/去重做起,再加精度/逻辑校验
能用 SQL/正则检的不用人工检
找到"够用"临界点,99.9% 成本可能是 95% 的 10 倍