为什么需要数据建模
数仓规划
为什么需要数仓规划
企业数据呈几何倍增长,数据量庞大、复杂,往往会出现数据难以管理和查找到对的数据的现象。需将无序、杂乱、繁琐、庞大且难以管理的数据,进行结构化有序的管理。使企业中的数据产生更多的价值,将数据价值最大化。以电商数据为例:
数仓要素规划
业务分类
所在的集团或公司业务复杂且较为庞大时,可创建业务分类,对数据进行业务区分,便于对业务数据进行更加方便的管理。
数据域
数据域是联系较为紧密的数据主题的集合,通常是根据业务类别、数据来源、数据用途等多个维度,对企业的业务数据进行的区域划分,将同类型数据存放在一起。
业务过程
业务过程是企业在指定的数据域中所执行的业务活动,是数据建模所需要分析的逻辑主体。例如,交易域中可以有加入购物车、下单、支付等业务过程。
数据集市
数据集市是基于业务分类,面向特定应用场景或者产品的数据组织。通常位于数据应用层,依赖于整合数据。
分析主题
分析主题用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。如盘货分析、关键指标分析等。
数仓设计实践
根据规划的数据要素,进行分层划域和表模型设计。
数据标准
主要包含命名词典、字段标准、标准值域、度量单位、表名规范。
命名词典
常见的命名词典有:词根词缀、业务分类缩写、数仓要素(如数据域、业务过程等)缩写、数仓分层缩写、表名前缀、表名后缀等等。
表名规范
按不同分层定义对应表名规则,同时定义规则强弱类型;在维度建模时,系统提供表名推荐;如果不按规范的表名,提供待治理列表。
数据指标
为什么要进行维度指标的梳理?在企业中维度指标的建设会存在哪些问题。
原子指标
用于明确业务的统计口径和计算逻辑,是基于用户的业务活动(即业务过程)创建的,用于统计业务活动中某一业务状况的数值。例如,用户的业务活动为购买,则原子指标就可以指定为支付金额。
业务限定
业务限定用于限定统计数据的业务范围。
统计周期
统计周期即统计数据的时间范围,例如近7天、近30天等。用于在统计派生指标时,限定业务统计的时间范围。
维度及维度属性
维度是人们观察事物的角度,进行统计的对象。例如客户、货品、场景等具体的业务对象;地域、组织关系和产品类目等抽象的业务对象。
维度属性:是用于具象化维度,比如货品的ID、货品的名称
派生指标
派生指标是由原子指标、业务限定、统计周期、统计粒度(维度属性)组成,用于反映某个粒度某一业务活动在指定时间周期及目标范围中的业务状况。例如,品牌ID粒度一周华南地域的销售金额。
维度建模
维度建模四步曲
怎么在维度建模中进行过程治理
1、设置非空
2、关联字段标准
3、关联标准值阈
4、语义化维度/指标
5、设置主键