爆款云主机2核4G限时秒杀,88元/年起!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      数仓之数据质量及Apache Griffin简介

      首页 知识中心 大数据 文章详情页

      数仓之数据质量及Apache Griffin简介

      2023-07-17 07:56:46 阅读次数:424

      数据仓库

      概述

      垃圾进,垃圾出(garbage in,garbage out)。数据质量定义:

      数据质量可能不是数据治理的最核心部分,但可能会成为数据治理落地的最大障碍。

      评估

      一般从以下6个方面评估数据质量:

      • 完整性:数据的记录和信息是否完整,是否存在缺失情况;
      • 一致性:数据的记录是否符合规范,是否与前后及其它数据集保持统一;
      • 准确性:数据中记录的信息和数据是否准确,是否存在异常或者错误信息;
      • 合规性:数据是否以非标准格式存储;
      • 重复性:是否记录重复数据
      • 及时性:数据从产生到可以查看的时间间隔,也叫数据的延时时长。

      另外,全国信息技术标准化技术委员会提出的数据质量评价指标(GB/T36344-2018 ICS 35.24.01),它包含以下几个方面:

      • 规范性:指的是数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。例如 GB/T 2261.1-2003 中定义的性别代码标准是 0 表示未知性别,1 表示男,2 表示女,9 表示未说明。GB 11643-1999 中定义的居民身份证编码规则是 6 位数字地址码,8 位数字出生日期码,三位数字顺序码,一位数字校验码。
      • 完整性:指的是按照数据规则要求,数据元素被赋予数值的程度。例如互联网 + 监管主题库中,监管对象为特种设备时,监管对象标识必须包含企业统一社会信用代码 + 产品品牌 + 设备编码,监管对象为药品时,监管对象标识必须包含药品名称 + 批准文号 + 生产批号。
      • 准确性:指的是数据准确表示其所描述的真实实体(实际对象)真实值的程度。例如互联网 + 监管行政检查行为中的行政相对人为公民时,证件类型和证件号码只能是身份证号码。
      • 一致性:指的是数据与其它特定上下文中使用的数据无矛盾的程度。例如许可证信息与法人基础信息是否一致,检查计划与检查记录是否匹配。
      • 时效性:指的是数据在时间变化中的正确程度。例如企业住址搬迁后,企业法人库中的住址是否及时更新。营业执照已经办理,许可照办理时是否可以及时获取到营业执照信息。
      • 可访问性:指的是数据能被访问的程度。

      除此之外,还有一些业内认可的补充指标,并且在质量工作的实际开展中,可以根据数据的实际情况和业务要求进行扩展,例如:

      • 唯一性:描述数据是否存在重复记录(国标归在准确性中)。
      • 稳定性:描述数据的波动是否是稳定的,是否在其有效范围内。
      • 可信性:描述数据来源的权威性、数据的真实性、数据产生的时间近、鲜活度高。

      数据质量(Data Quality)管理贯穿数据生命周期的全过程,覆盖质量评估、数据监控、数据探查、数据清洗、数据诊断等方面。

      数据质量问题

      • 数据真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。
      • 数据准确性:准确性也叫可靠性,字段值缺失,空值。是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。
      • 数据唯一性:用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。
      • 数据完整性:数据完整性问题包括:模型设计不完整,如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。
      • 数据一致性:多源数据的数据模型不一致,如:命名(含义)、数据结构、约束规则、数据实体、数据量条数、数据编码、分类层次、生命周期不一致等。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。
      • 数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
      • 数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

      数据质量检测和量化

      1. 有效性
      • 字段长度有效
      • 字段内容有效
      • 字段数值范围有效
      • 枚举值集合有效
      1. 唯一性
      • 对主键是否存在重复数据的监控指标
      1. 完整性
      • 字段是否为空或NULL
      • 记录数是否丢失
      • 记录数环比波动
      • 录数波动范围
      • 记录数方差检验
      1. 准确性
      • 数值同比
      • 数值环比
      • 数值方差检验
      • 表逻辑检查
      1. 一致性
      • 表级别一致性检查
      1. 时效性
      • 表级别质量监控指标,数据是否按时产出
      1. 数据剖析
      • 最大值检查
      • 最小值检查
      • 平均值检查
      • 汇总值检查
      1. 自定义规则检查
      • 用户写自定义SQL实现的监控规则
        从有效性、唯一性、完整性、准确性、一致性、时效性、数据剖析和自定义规则检查等几个维度对数据质量进行测量,但对于现在超级大的数据量级监控所有的数据是不符合成本效率的。因此,知道哪些数据为最关键的,对这些关键数据进行全链路的数据质量,这样有助于防止错误或揭示改进的机会。
      • 数据质量问题的量化
        对于数据质量的检测结果进行分析和量化,查找出现质量问题的数据链环节,定位数据问题,实行问责机制。

      数据质量管理

      Data Quality Management,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益。

      Griffin

      ​​官网​​​​GitHub​​ Apache Griffin,eBay开源的大数据数据质量解决方案,支持批处理和流模式两种数据质量检测方式,基于Hadoop和Spark建立的数据质量服务平台 (DQSP)。提供一个全面的框架来处理不同的任务,例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化。可从不同维度度量数据资产,提升数据的准确度和可信度,如:离线任务执行完毕后检查源端和目标端的数据数量是否一致,源表的数据空值等。

      功能:

      • 度量:精确度、完整性、及时性、唯一性、有效性、一致性
      • 异常监测:利用预先设定的规则,检测出不符合预期的数据,提供不符合规则数据的下载
      • 异常告警:通过邮件或门户报告数据质量问题
      • 可视化监测:利用控制面板来展现数据质量的状态
      • 实时性:可以实时进行数据质量检测,能够及时发现问题
      • 可扩展性:可用于多个数据系统仓库的数据校验
      • 可伸缩性:工作在大数据量的环境中,目前运行的数据量约1.2PB(eBay环境)
      • 自助服务:Griffin提供一个简洁易用的用户界面,可以管理数据资产和数据质量规则;同时用户可以通过控制面板查看数据质量结果和自定义显示内容。

      支持的数据源包括Hive,AVRO,Kafka,MySQL和其他RDBM。

      架构

      数仓之数据质量及Apache Griffin简介

       

      各部分的职责如下:

      • Define:主要负责定义数据质量统计的维度,比如数据质量统计的时间跨度、统计的目标(源端和目标端的数据数量是否一致,数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等)
      • Measure:主要负责执行统计任务,生成统计结果
      • Analyze:主要负责保存与展示统计结果

      一个完整的Griffin任务的执行流程:

      数仓之数据质量及Apache Griffin简介

       

      注册数据,把想要检测数据质量的数据源注册到griffin。

      配置度量模型,可以从数据质量维度来定义模型,如:精确度、完整性、及时性、唯一性等。

      配置定时任务提交spark集群,定时检查数据。

      在门户界面上查看指标,分析数据质量校验结果。

      Griffin 系统主要分为:数据收集处理层(Data Collection&Processing Layer)、后端服务层(Backend Service Layer)和用户界面(User Interface)

      数仓之数据质量及Apache Griffin简介

       

      数据处理和存储层:

      对于批量分析,数据质量模型将根据 hadoop 中的数据源计算 Spark 集群中的数据质量指标。

      对于近实时分析,使用来自消息传递系统的数据,然后数据质量模型将基于Spark 集群计算实时数据质量指标。对于数据存储,可以在后端使用ES来满足前端请求。

      Apache Griffin 服务:
      项目有提供Restful 服务来完成Griffin 的所有功能,例如探索数据集、创建数据质量度量、发布指标、检索指标、添加订阅等。开发人员可以基于这些 Web 开发自己的用户界面服务。

      安装

      实战

      其他工具

      通过试用其他工具,来学习数据质量管理的思路和经验。

      Deequ

      Amazon开源,​​GitHub​​,

      Great Expectations

      ​​GitHub​​,Python的工具包,数据科学领域。

      DataWorks

      阿里

      DataMan

      美团点评

      Qualitis

      ​​GitHub​​

      参考

      • ​​大数据:数据质量​​
      • ​​如何提升大数据数据质量​​
      • ​​大数据环境下的数据质量管理策略​​
      • ​​数据质量管理​​
      • 数据质量监控框架及解决方案总结
      • 数据质量管理工具预研
      • 开源数据质量解决方案——Apache Griffin入门宝典
      •  
      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://blog.51cto.com/u_15851118/5811946,作者:johnny233,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:浅析数据产品中数据源密码的安全管理设计与实现

      下一篇:自定义分片算法实现range查询

      相关文章

      2025-03-11 09:35:31

      【数据仓库设计基础(三)】数据集市

      【数据仓库设计基础(三)】数据集市

      2025-03-11 09:35:31
      数据 , 数据仓库 , 维度 , 设计
      2025-03-11 09:35:31

      【数据仓库设计基础(四)】数据仓库实施步骤

      【数据仓库设计基础(四)】数据仓库实施步骤

      2025-03-11 09:35:31
      分区 , 数据 , 数据仓库 , 系统 , 需要
      2025-03-11 09:35:31

      【数仓基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处

      【数仓基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处

      2025-03-11 09:35:31
      分析 , 数据 , 数据仓库 , 系统
      2025-03-11 09:35:31

      【数据仓库基础(四)】数据仓库需求:基本需求和数据需求

      【数据仓库基础(四)】数据仓库需求:基本需求和数据需求

      2025-03-11 09:35:31
      数据 , 数据仓库 , 查询 , 用户 , 访问
      2025-03-11 09:35:31

      【数据仓库-零】数据仓库知识体系 ing

      【数据仓库-零】数据仓库知识体系 ing

      2025-03-11 09:35:31
      数据仓库 , 架构 , 维度 , 规范
      2025-03-11 09:34:32

      【Trino权威指南(第二版)】Trino介绍:trino解决大数带来的问题

      【Trino权威指南(第二版)】Trino介绍:trino解决大数带来的问题

      2025-03-11 09:34:32
      SQL , 数据 , 数据仓库 , 查询
      2025-02-25 08:57:14

      数仓建模(三)建模三步走:需求分析、模型设计与数据加载

      数仓建模(三)建模三步走:需求分析、模型设计与数据加载

      2025-02-25 08:57:14
      加载 , 数据 , 数据仓库 , 维度 , 需求
      2025-02-25 08:52:14

      数仓建模(二) 从关系型数据库到数据仓库的演变

      数仓建模(二) 从关系型数据库到数据仓库的演变

      2025-02-25 08:52:14
      存储 , 数据 , 数据仓库 , 数据库 , 查询
      2025-02-21 08:57:32

      漫谈大数据 - 基于SparkSQL的离线数仓

      漫谈大数据 - 基于SparkSQL的离线数仓

      2025-02-21 08:57:32
      业务 , 指标 , 数据 , 数据仓库 , 维度
      2025-01-08 08:39:56

      数据仓库如何分层?数据仓库常见分层有哪些?

      数据仓库的分层设计是一种重要的数据组织和管理方式,它有助于清晰地定义数据流动和转换的过程,同时也支持数据的可维护性和扩展性

      2025-01-08 08:39:56
      Data , 存储 , 数据 , 数据仓库 , 数据源 , 查询 , 维度
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      33561

      阅读量

      5242725

      查看更多

      最新文章

      【数据仓库设计基础(三)】数据集市

      2025-03-11 09:35:31

      【数据仓库基础(四)】数据仓库需求:基本需求和数据需求

      2025-03-11 09:35:31

      【数据仓库-零】数据仓库知识体系 ing

      2025-03-11 09:35:31

      【Trino权威指南(第二版)】Trino介绍:trino解决大数带来的问题

      2025-03-11 09:34:32

      数仓建模(三)建模三步走:需求分析、模型设计与数据加载

      2025-02-25 08:57:14

      漫谈大数据 - 基于SparkSQL的离线数仓

      2025-02-21 08:57:32

      查看更多

      热门文章

      Spark 2.2.1 集成Hive数据仓库的案例与解读

      2023-06-14 09:13:05

      数据仓库与数据挖掘

      2024-10-23 08:58:48

      漫谈大数据 - 基于SparkSQL的离线数仓

      2025-02-21 08:57:32

      数仓建模(三)建模三步走:需求分析、模型设计与数据加载

      2025-02-25 08:57:14

      【数据仓库-零】数据仓库知识体系 ing

      2025-03-11 09:35:31

      【数据仓库设计基础(三)】数据集市

      2025-03-11 09:35:31

      查看更多

      热门标签

      算法 leetcode python 数据 java 数组 节点 大数据 i++ 链表 golang c++ 排序 django 数据类型
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      数仓建模(三)建模三步走:需求分析、模型设计与数据加载

      【数据仓库设计基础(三)】数据集市

      数据仓库与数据挖掘

      【Trino权威指南(第二版)】Trino介绍:trino解决大数带来的问题

      Spark 2.2.1 集成Hive数据仓库的案例与解读

      【数据仓库-零】数据仓库知识体系 ing

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号