数据架构示例 关系建模:新建SDI层和DWI层两个模型 在关系建模中,分别新建SDI层和DWI层两个关系模型,并通过逆向数据库导入原始数据表到SDI层的关系模型中,在DWI层模型中新建一个“标准出行数据”的标准化的业务表。 1. 在数据架构控制台,单击左侧导航树中的“关系建模”。 如果当前未创建过关系模型,系统会弹出“新建分层治理模型”提示框。您可以新建一个SDI层关系模型,命名为“sdi”,再新建一个DWI层关系模型,命名为“dwi”。单击“确定”即可。 如果不是首次创建,单击新建物理模型,如下图所示。 a. 先新建一个SDI层关系模型,命名为“sdi”。在物理模型页签中,单击,新建模型,配置如下参数,单击“确定”。 b. 再新建一个DWI层关系模型,命名为“dwi”。在物理模型页签中,单击,新建模型,配置如下参数,单击“确定”。 2. 在“数仓分层”页签中,单击新建的SDI关系模型,展开,选中业务对象“城市交通 > 行程记录 > 原始记录”,单击“逆向数据库”,通过逆向数据库,导入原始表。 在“逆向数据库”窗口中,配置如下所示参数,然后单击“确定”。在本示例中选择贴源层数据库demosdidb中的原始数据表。 逆向数据库成功后,单击“关闭”。您可以在列表中查看导入的表: 3. 请参照以下步骤,新建一个“标准出行数据”的标准化的业务表。 a.在“数仓分层”页签中,单击新建的DWI关系模型,展开,选中DWI模型中的业务对象“城市交通 > 行程记录 > 原始记录”,然后在右侧列表上方单击“新建”按钮,进入新建表页面。 b.在新建表的“基本配置”标签页中,配置如下: c.进入“表字段”标签页,单击“新建”,在标准出行数据表中,依次添加如下表所示的字段,并单击字段供应商编号、费率代码、付款方式的“数据标准”列中的按钮,分别关联数据标准“供应商”、“费率代码”和“付款方式”。 下表为标准出行数据表字段 序号 名称 编码 数据类型 数据标准 主键 分区 不为空 标签 1 供应商编号 vendorid 长整型(BIGINT) 供应商 不勾选 不勾选 勾选 2 上车时间 tpeppickupdatetime 时间戳类型(TIMESTAMP) 不勾选 不勾选 勾选 3 下车时间 tpepdropoffdatetime 时间戳类型(TIMESTAMP) 不勾选 不勾选 勾选 4 乘客人数 passengercount 字符类型(STRING) 不勾选 不勾选 勾选 5 行驶距离 tripdistance 高精度(DECIMAL)(10,2) 不勾选 不勾选 勾选 6 费率代码 ratecodeid 长整型(BIGINT) 费率代码 不勾选 不勾选 勾选 7 存储转发标识 storefwdflag 字符类型(STRING) 不勾选 不勾选 勾选 8 上车地点 pulocationid 字符类型(STRING) 不勾选 不勾选 勾选 9 下车地点 dolocationid 字符类型(STRING) 不勾选 不勾选 勾选 10 付款方式代码 paymenttype 长整型(BIGINT) 付款方式 不勾选 不勾选 勾选 11 车费 fareamount 高精度(DECIMAL)(10,2) 不勾选 不勾选 勾选 12 加收 extra 高精度(DECIMAL)(10,2) 不勾选 不勾选 勾选 13 MTA税 mtatax 高精度(DECIMAL)(10,2) 不勾选 不勾选 勾选 14 手续费 tipamount 高精度(DECIMAL)(10,2) 不勾选 不勾选 勾选 15 通行费 tollsamount 高精度(DECIMAL)(10,2) 不勾选 不勾选 勾选 16 改善附加费 improvementsurcharge 高精度(DECIMAL)(10,2) 不勾选 不勾选 勾选 17 总车费 totalamount 高精度(DECIMAL)(10,2) 不勾选 不勾选 勾选 对于标准出行数据表中的字段,您可以执行以下操作。 关联数据标准 在新建表或编辑表时,进入“表字段”标签页,在字段所在行的“数据标准”列,单击按钮可以选择一个数据标准与字段相关联。将字段关联数据标准后,表发布上线后,就会自动生成一个质量作业,每个关联了数据标准的字段会生成一个质量规则,基于数据标准对字段进行质量监控,您可以前往DataArts Studio数据质量模块的“质量作业”页面进行查看。有关关联数据标准的更多信息,请参见用户指南中的“数据架构> 关系建模 > 物理模型设计”中的“新建表并发布”。 添加标签 标签是用户自定义的标识。添加标签后,您就可以在DataArts Studio数据目录模块中通过标签搜索相关的数据资产。 在新建表或编辑表时,进入“表字段”标签页,在字段所在行的“标签”列,单击按钮可以添加标签,在弹出框中,您可以输入新的标签名称后按回车,也可以在下拉列表中选择已有标签。 关联质量规则 完成表的新建后,您可以在表中为字段关联质量规则,完成关联后,当表发布成功后,就会在DataArts Studio数据质量中自动创建质量作业,如果当前表已经发布,则系统会自动更新质量作业。有关关联质量规则的更多信息,请参见用户指南中的“数据架构> 关系建模 > 关联质量规则”。 d.接下来,进入“映射”标签页,通过新建映射设计表的数据来源。 如果表中的字段数据来源于不同的关系模型,您需要创建多个映射。在每个映射中,您只需要为来源于当前映射的字段设置源字段,其他字段可以不设置。 如果表中的字段数据来源于同一个关系模型中的多个表,您可以新建一个映射。在该映射的“源表”中,您可以将多个表设置Join,然后再为表中的字段设置源字段。 本示例只需要新建一个映射。单击“新建”,新建一个映射,如下图。 映射名称 :新建映射时会自动生成,您也可以修改。 来源模型 :本示例选择“sdi”。 源表 :本示例选择原始数据表“sditaxitripdata”,标准出行数据表的数据均来源于该原始数据表。 字段映射 : 在“字段映射”区域,依次为表中的字段设置源字段,所选择的源字段应与表中的字段代表相同含义,一一对应。如下图所示,在字段映射的底部,会显示生成的SQL语句,可供参考。 说明 如果在“数据架构 > 配置中心 > 功能配置”页面中开启了“模型设计业务流程步骤 > 创建数据开发作业”(默认为关闭),发布表时,系统支持根据表的映射信息,在数据开发中自动创建一个ETL作业,每一个映射会生成一个ETL节点,作业名称以“ 数据库名称表编码 ”开头。当前该功能处于内测阶段,仅支持DLI>DLI和DLI>DWS两种映射的作业创建。 已创建的ETL作业可以进入“数据开发 > 作业开发”页面查看。ETL作业默认每天0点启动调度。 在本示例中,不支持自动创建ETL作业,映射信息仅为数据开发提供数据的ETL流向。在做数据开发的过程中,可以参考此处的映射关系编写SQL脚本。 e.完成映射的配置后,出租车行程数据表配置完成,单击“保存”。 4. 模型创建好之后,勾选已创建的模型,选择“更多 > 导出”,然后在弹出框中选中“表”并单击“确定”,可以将整个模型导出。参考同样的方法导出模型“sdi”。导出后的模型,可以作为备份,今后可用于模型导入。 5. 发布表模型。 a.发布步骤2中通过逆向数据库导入SDI模型的原始表,发布后,就可以通过DataArts Studio对原始表进行管理和监控。 返回关系建模页面,在模型目录选择“sdi”模型,然后在右侧的列表中,勾选表sditaxitripdata,再单击“发布”,然后在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,“sdi”模型发布成功。如果当前帐号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 b.发布DWI模型中的表。 返回关系建模页面,在模型目录中选择“dwi”模型,然后在右侧的列表中,勾选表“标准出行数据”,再单击“发布”,然后在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,“dwi”模型发布成功。如果当前帐号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 6. 当表模型发布成功后,进入数据架构的“关系建模”页面可以查看表的“状态”和“同步状态”。 发布是一个异步操作,您可以单击按钮刷新状态。表发布并通过审核后,系统会依据“配置中心 > 功能配置”页面中的“模型设计业务流程步骤”进行创建表、同步技术资产、同步业务资产等操作,在表的“同步状态”一列中将显示同步状态。 “同步状态”若均显示成功,则说明表发布成功。鼠标移至“同步状态”中的图标之上,若显示“创建表: 创建成功”说明该表在对应的数据源下已经创建成功。 “同步状态”若显示某一项或某几项失败,可以先刷新状态。如果仍失败,可以选择操作列的“更多 > 发布历史”,然后进入“发布日志”标签页查看日志。 请根据错误日志定位失败原因,问题解决后,再返回“关系建模”页面,在列表中勾选需同步的表,然后选择“更多 > 同步”尝试重新同步。如果仍同步失败,请联系技术支持人员协助解决。 在列表中单击表名,可以查看表的详情,其中“数据源”显示了表的位置。