数据湖管理与分析平台EDAP

数据标准

概述

功能介绍

EDAP支持在数据建模前规划制定企业数据标准,包括基础数据标准和代码数据标准两类,提供灵活可配置的向导模式,以及标准的批量导入导出,同时提供数据标准的发布、废弃、审核、删除、修订的全生命周期管理能力。用户可在后续的数据建模过程中对数据标准进行引用,保障后续开发过程中数据口径的一致性,从源头上避免数据质量问题的产生。

核心概念

  • 数据标准:数据标准是和业务相关的、用于描述企业层面需共同遵守的数据含义和业务规则。通过数据标准,可以指定其相关的字段类型、取值范围、度量单位等内容。在业务数据系统中, 不同表的多个字段可以与同一个数据标准进行关联,从而约束它们遵守相同的规范。
  • 公共代码:公共代码是数据标准的取值范围,在公共代码中可设置某一数据标准可选择的数据的内容以及范围。例如性别数据标准的公共代码代码内容应该为男或女。

应用场景

image.png

角色、职责与权限

角色 职责 权限说明
系统管理员 负责数据标准发布、废弃的审核 ·数据标准审核
数据管理员 负责数据标准的定义、发布、管理 ·数据标准新建
·数据标准发布、废弃、修订、删除
普通用户 根据已发布的数据标准,进行数据标准落标引用 数据标准引用

目录管理

数据标准与公共代码均需要在创建在指定的目录下,两者的目录功能相同,但数据彼此独立。

默认情况下,只有「全部」一个根目录,该目录下不允许创建数据标准/公共代码。 在创建数据标准/公共代码前,首先需要新建子目录。对于子目录来说,还可以创建下级子目录。

注意:

  • 目录的名称具有局部唯一性,即同一个父目录下不能有名称相同的子目录
  • 目录最多不能超过 5 层

新建目录

点击「目录」侧边栏上方的「+」号,即可新建目录:

image.png

表1 目录参数说明(*表示必填)

参数 描述
*目录名称 目录的名称,仅支持中文、英文、数字、下划线、中划线,长度不能超过64个字符
*目录路径 目录所属的路径,层级不能超过5层

重命名目录

右键点击指定的目录,可以对目录进行重命名。

删除目录

右键点击指定的目录,可以对目录进行删除操作。只有当目录为空时,目录才允许删除,否则,删除选项置灰。

目录为空指的是该目录下即没有数据,也没有子目录。

数据标准管理

新建数据标准

  1. 进入「数据标准」模块,在上方的标签页中选择「标准管理」,选中目录后,即可在该目录下创建数据标准(选中 “全部” 根目录时除外,该目录下不允许创建数据标准,此时「添加标准」按钮置灰)。

image.png

  1. 在编辑页面中,配置如下内容:

image.png

表2 数据标准参数说明(*表示必填)

参数 描述
基础信息 *中文名称 标准中文名称,仅支持中文、数字、下划线、中划线,长度不能超过64个字符
*英文名称 标准英文编码,仅支持英文、数字、下划线、中划线,长度不能超过64个字符
*标准编码 标准英文编码,仅支持英文、数字、下划线、中划线,长度不能超过64个字符
技术属性 *数据类型 下拉选择:STRING、INT、BIGINT、DOUBLE、FLOAT、BOOLEAN、BYTES、DATE、TIMESTAMP、DECIMAL
选中DECIMAL时可以配置长度和精度
数据长度 可以选择固定值或范围,输入值为正整数
允许为空 是否允许为空
业务属性 是否引用码表 是否引用公共代码,如果是,则可以下拉选择引用的公共代码
值域范围 数据标准的取值范围,取值为一个区间,可以选择是开区间或者闭区间,左值或右值如果为空,则表示负无穷或正无穷
业务定义 支持中文、英文、数字、特殊字符等,长度不能超过64个字符
业务规则 支持中文、英文、数字、特殊字符等,长度不能超过64个字符
引用文档 支持中文、英文、数字、特殊字符等,长度不能超过64个字符
描述 支持中文、英文、数字、特殊字符等,长度不能超过500个字符
管理属性 责任人 数据标准的责任人,下拉选择用户
责任部门 数据标准的责任部门,支持中文、英文、数字、特殊字符等,长度不能超过64个字符
自定义属性 自定义属性 用户最多可填写三个自定义属性,每个自定义属性包括属性名称和内容,支持中文、英文、数字、特殊字符等,长度不能超过64个字符

查看数据标准详情

点击标准中文名称,可以跳转到标准详情页面:

image.png

标准详情页面展示如下,包括标准的基本信息、引用记录、发布历史、审核历史等数据:

image.png

编辑数据标准

  • 只有处于「草稿」、「已驳回」和「已发布」状态的数据标准,才支持编辑操作。
  • 对处于「草稿」的数据标准,点击「编辑」按钮,会跳转到编辑页面,修改数据标准的属性之后点击「提交」,即可完成编辑,编辑后的数据标准仍然为「草稿」状态。
  • 对处于「已驳回」的数据标准,点击「编辑」按钮,会跳转到编辑页面,修改数据标准的属性之后点击「提交」,即可完成编辑,编辑后的数据标准变化为「草稿」状态。
  • 对处于「已发布」状态的数据标准进行编辑,见「修订」。

删除数据标准

  • 只有处于「草稿」和「已驳回」状态的数据标准,才支持删除操作。
  • 对处于「草稿」和「已驳回」状态的数据标准,点击「删除」按钮,可以对数据标准进行删除。

说明:删除数据标准时,该标准的发布记录和审核记录将会同步删除。

导入/导出数据标准

将鼠标悬浮在「标准管理 」Tab 下目录右侧的「...」处,即可弹出数据标准的「导入/导出」菜单。

截屏2023-06-27 下午4.37.47.png

导入数据标准

  1. 点击「导入标准」,展示导入标准的功能弹窗:

image.png

  1. 点击「下载导入模版」,可以下载数据标准导入的 Excel 模版:

image.png

  1. 其中,第二行为示例数据,按照模版的格式,填写导入的数据标准数据,例如:

image.png

  1. 将编辑好的 Excel 文件上传,点击「导入」,即可进行导入:

image.png

  1. 导入完成后,页面会展示导入结果:

image.png

  1. 可以在标准管理页面看到导入的数据标准,默认都是「草稿」状态:

image.png

导出数据标准

  1. 点击「标准导出」,可以导出指定目录及其子目录下的所有数据标准:

image.png

  1. 导出的数据标准为 Excel 格式,每行一条数据标准:

image.png

公共代码管理

新建公共代码

  1. 进入「数据标准」模块,在上方的标签页中选择「公共代码」,选中目录后,即可在该目录下创建公共代码(选中 “全部” 根目录时除外,该目录下不允许创建数据标准,此时「添加代码」按钮置灰):

image.png

  1. 在编辑页面中,配置如下内容:

image.png

表3 公共代码参数说明(*表示必填)

参数 描述
基本信息 *代码中文名称 仅支持中文、数字、下划线、中划线,长度不能超过64个字符
*代码英文名称 仅支持英文、数字、下划线、中划线,长度不能超过64个字符
*代码编码 仅支持英文、数字、下划线、中划线,长度不能超过64个字符
描述 支持中文、英文、数字、特殊字符等,长度不能超过500个字符
代码表配置 *字段名称 代码字段的名称,仅支持英文、数字、下划线,且必须以字母开头,长度不能超过32个字符
*字段类型 代码字段的数据类型,下拉选择:STRING、INT、BIGINT、DOUBLE、FLOAT、BOOLEAN、BYTES、DATE、TIMESTAMP、DECIMAL
字段描述 代码字段的描述信息,支持中文、英文、数字、特殊字符等,长度不能超过500个字符

填写数值

  1. 创建公共代码之后,点击公共代码右侧操作栏的「填写数值」按钮,可以对公共代码的数值进行编辑:

image.png

  1. 如上图填写好数值之后,点击确定,就可以保存公共代码的数值。
  2. 如果想更新数值,只需再次点击「填写数值」,对其中的数据进行编辑,再次点击确定,就可以更新公共代码的数值。

查看公共代码详情

  1. 点击代码中文名称,可以跳转到代码详情页面:

image.png

  1. 代码详情页面展示如下,包括公共代码的基本信息、代码表字段、引用记录、发布历史、审核历史等数据:

image.png

编辑公共代码

  • 只有处于「草稿」、「已驳回」和「已发布」状态的公共代码,才支持编辑操作。
  • 对处于「草稿」的公共代码,点击「编辑」按钮,会跳转到编辑页面,修改公共代码的属性之后点击「提交」,即可完成编辑,编辑后的公共代码仍然为「草稿」状态。
  • 对处于「已驳回」的公共代码,点击「编辑」按钮,会跳转到编辑页面,修改公共代码的属性之后点击「提交」,即可完成编辑,编辑后的公共代码变化为「草稿」状态。
  • 对处于「已发布」状态的公共代码进行编辑,见「修订」。

删除公共代码

  • 只有处于「草稿」和「已驳回」状态的公共代码,才支持删除操作。
  • 对处于「草稿」和「已驳回」状态的公共代码,点击「删除」按钮,可以对公共代码进行删除。

说明:删除公共代码时,该公共代码的发布记录和审核记录将会同步删除。

导入/导出公共代码

将鼠标悬浮在「公共代码」Tab 下目录右侧的「...」处,即可弹出公共代码的「导入/导出」菜单:

image.png

导入公共代码

  1. 点击「导入代码」,展示导入代码的功能弹窗:

image.png

  1. 点击「下载导入模版」,可以下载公共代码导入的 Excel 模版:

image.png

  1. 其中,第二行为示例数据,按照模版的格式,填写导入的公共代码数据,例如:

image.png

  1. 将编辑好的 Excel 文件上传,点击「导入」,即可进行导入,导入完成后,页面会展示导入结果:

image.png

  1. 可以在公共代码管理页面看到导入的公共代码,默认都是「草稿」状态:

image.png

导出公共代码

  1. 点击「代码导出」,可以导出指定目录及其子目录下的所有公共代码:

image.png

  1. 导出的公共代码为 Excel 格式。第一个 sheet 为总览,每行一条公共代码,其余的 sheet 是每个公共代码的取值:

image.png

image.png

状态管理

生命周期

数据标准/公共代码的生命周期包括以下状态:草稿、待发布、已发布、已驳回、待废弃、已废弃。通过发布、修订和废弃这三种操作,可以修改它们的状态。

各个状态的流转方式如下:

image.png

发布

  1. 新建的数据标准/公共代码处于草稿状态,需要发布之后才可以被正式使用。在右侧的操作栏点击「发布」按钮,即可进行发布操作。

image.png

  1. 点击「发布」之后,该数据标准的状态变化为待发布

image.png

  1. 另外在标准审核页面,会出现一条待审核的发布申请,具有“标准审核”权限的用户可以对该条申请进行审核,审核操作见“审核”小节。
  2. 如果审核通过,则该标准的状态变更为已发布,如果审核不通过,则该标准的状态变为已驳回,此时,可以根据审核意见,对标准进行修改之后再次提交发布申请。

修订

  1. 对于已发布的数据标准/公共代码,点击右侧操作栏中的「编辑」按钮,可以对其进行修订操作:

image.png

  1. 此时会跳转到数据标准的编辑页面,对数据标准的属性进行修改之后,点击提交,将会创建一个新的子版本。此时,在数据标准的左侧会出现一个可以点击的下三角按钮:

image.png

  1. 点击该按钮,弹出该数据标准的子版本:

image.png

  1. 可以对该子版本进行发布、编辑、删除操作,点击「发布」按钮,则会创建一个修订申请,由数据管理员对该申请进行审核(见“审核”小节)。如果审核通过,则该子版本将会替代原标准,成为新的数据标准;如果审核不通过,则该子版本的状态变更为已驳回,此时可对子版本进行编辑后再次发布,或者进行删除。

废弃

  1. 对于已发布的数据标准/公共代码,如果不再使用,则可以进行废弃。点击右侧操作栏中的「废弃」按钮,可以对标准进行废弃操作:

image.png

  1. 点击「废弃」按钮之后,此时数据标准的状态变更为待废弃:

image.png

  1. 另外在标准审核页面,会出现一条待审核的发布申请,具有“标准审核”权限的用户可以对该条申请进行审核,审核操作见“审核”小节。
  2. 如果审核通过,则该标准的状态变更为已废弃,如果审核不通过,则该标准的状态重新变为已发布

审核

在标准审核 Tab 下,共有三个子页面,分别是「待审核」、「我的审核」、「我的提交」。根据用户的权限不同,每个页面的展示情况也不同。

  • 待审核:只有当用户具有审核标准的权限时才展示该页面,显示所有待审核的单据,可以对这些单据进行审核
  • 我的审核:只有当用户具有审核标准的权限时才展示该页面,展示该用户所有审核过的单据
  • 我的提交:对所有用户都展示,展示该用户提交的单据

提交审核

在「标准管理」或者「公共代码」中,所有的「发布」、「修订」、「废弃」操作都会生成一个审核单据,可以在「我的提交」中查看该用户提交的单据及其审核状态:

image.png

处理审核

  1. 如果用户具有审核标准的权限,在「待审核」页面中查看所有待审核的单据,点击右侧的「审核」操作,可以对其它用户提交的申请单据进行审核:

image.png

  1. 审核结果可以是「通过」或者「驳回」:

image.png

查看审核

  1. 如果用户具有审核标准的权限,在「我的审核」页面中查看所有审核过的单据:

image.png

  1. 点击右侧的「查看」,可以查看审核详情:

image.png

数据落标检查

设置落标规则

  1. 在“规范设计——数据标准——标准管理”页面,点击“操作”列的“更多”蓝字按钮,在展开的选项中点击“设置落标规则”项,进入设置界面;

截屏2023-06-27 下午4.38.35.png

或者点击任一标准中文名称的蓝字按钮,进入标准详情页,点击右上角“设置落标规则”按钮,进入设置界面。

截屏2023-06-27 下午4.38.46.png

  1. 在“设置落标规则”操作界面,可查看选中标准对应的标准信息、自动落标规则以及手动落标规则。

若在标准中配置了以下属性,则会自动生成对应的落标规则。

标准属性 质量规则 规则类型
技术属性 数据类型 数据类型校验 元数据校验
允许为空 字段空值 完整性
业务属性 引用码表 枚举值校验 准确性
值域范围 值域范围校验 准确性

可在页面最下方勾选是否要自动创建落标任务。

截屏2023-06-27 下午4.39.04.png

  1. 点击“手动落标规则”板块中的“+新增落标规则”,可在弹出的新增弹窗页中进行新增操作。 无论是自动生成的“自动落标规则”还是手动新增的“手动落标规则”,初始状态都是“已停用”,点击打开开关按钮可修改状态至“已启用”。

截屏2023-06-27 下午4.39.15.png

  1. 在“新增质量规则”的弹窗页中可选择配置模式,默认关闭高级模式,点击打开开关可进入高级模式的新增配置页。 在默认的配置模式下,选择“规则模板名称”和“告警级别”,选填“关联描述”。

新增质量规则.png

某些规则模版需要填写相应信息以完成完整的质量规则新增配置。

简单模式.png

  1. 若打开按钮进入高级模式,则有更多规则模板可供选择。根据选择规则模板的不同,规则配置项也会有对应差别。 告警条件中的条件规则可参照样例填写。 完成所有规则配置项的填写或选择后,选填“关联描述”,点击“确认”按钮,完成质量规则新增。

高级模式1.png 高级模式2.png

  1. 完成所有规则新增后可在“设置落标规则”界面确认是否启用,点击操作页蓝字按钮“编辑”、“删除”完成对应操作。点击页面最下方“确认”按钮,完成落标规则设置。

引用数据标准

  1. 在「元数据」中新建表,在字段定义中可以关联数据标准:

image.png

  1. 点击「关联标准」的 icon 后,在弹出的页面中会展示所有状态为已发布待废弃的数据标准:

image.png

  1. 关联数据标准后,会对字段定义的类型、是否允许为空、密级等属性进行校验,如果与数据标准定义的不一致,则会进行提示,且此时元数据表无法进行提交:

image.png

  1. 将字段定义的属性修改为与标准定义一致,直到没有校验提示信息,才可以进行提交:

image.png

  1. 在数据标准的详情页面,可以看到当前引用该标准的元数据表及字段:

image.png

执行落标任务

  1. 在“数据标准”的“设置落标规则”页面最下方勾选“自动创建落标任务”功能后,即可自动创建落标任务并进行落标检查。

进入“数据治理——数据质量——质量作业”,也可在页面内找到“作业类型”为“落标检查任务”的相应作业。

截屏2023-06-27 下午4.39.36.png

  1. 点击“我的项目——作业组开发”,进入离线计算页面,新建或选中任一任务组,在“数据治理”中拖拽出一个“Quality”节点。点击节点,在右侧打开的“节点配置”页面的“质量作业”项下拉选框,选择落标任务从而完成其执行操作,完成后点击“保持”和“发布”按钮。

截屏2023-06-27 下午4.39.48.png

截屏2023-06-27 下午4.40.04.png%E6%89%A7%E8%A1%8C2_161c763.png)

查看落标检查报告

  1. 点击进入“规范设计——数据标准——落标报告”,查看落标任务的统计数据总览。 找到“评估标准”板块,点击“操作”列的蓝字按钮“查看结果”,可跳转至标准对应的详情界面,查看更具体的结果概览和字段详情信息。

截屏2023-06-27 下午4.40.18.png

截屏2023-06-27 下午4.40.30.png

上一篇
主题设计
下一篇
数据建模