searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

翼MR实时数仓方案

2024-10-10 02:06:30
16
0

技术架构图

 

方案优势

该架构主要以Flink为实时数据的采集、计算,使用Doris进行数据的存储、实时数仓构建,实现了海量实时数据高效处理,支持数据实时写入与更新,实时数据写入即可查可用。

Flink是大数据的流式计算框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在所在常见集群环境中运行,并能以内存速度和任意规模进行计算,支持批处理和流处理数据,有着高速度和高吞吐的特点,是真正的流批处理计算框架。Doris是一个基于MPP架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。

核心能力

资源隔离:支持资源组隔离,支持节点间workload group精细化的资源管控;

CBO优化器:基于代价的 join reorder,pushdown,RF选择,高并发点查的短路径优化;

向量化:向量化处理,减少虚函数调用和cache miss,高效利用 SIMD 指令,同时支持 X86 和 ARM;

MPP架构:节点间并行和节点内并行,发挥多机多核性能,支持大表的分布式 join ,支持算子落盘;

丰富索引:跳数索引、点查索引、倒排索引等;

物化视图:强一致的单表物化视图,支持通用聚合函数,异步物化视图;

智能缓存:查询结果、数据、元数据、中间数据缓存,内表和外表缓存;

联邦查询:多源数据目录功能,便捷对接外部数据目录,增强数据湖分析和联邦数据查询能力;

分区分桶:支持两级分区存储,第一层为分区(partition),第二层为HASH分桶(bucket),查询高并发精准推送裁剪,快速命中数据;

可视化控制台:界面化简单操作,实现集群服务的部署与管理、日志采集审计、监控告警等运维能力,满足集群运维的基本需求,同时提供元数据管理、查询编辑器、诊断分析、权限管理等能力满足数据分析人员的需求

0条评论
0 / 1000
朱****德
6文章数
0粉丝数
朱****德
6 文章 | 0 粉丝
原创

翼MR实时数仓方案

2024-10-10 02:06:30
16
0

技术架构图

 

方案优势

该架构主要以Flink为实时数据的采集、计算,使用Doris进行数据的存储、实时数仓构建,实现了海量实时数据高效处理,支持数据实时写入与更新,实时数据写入即可查可用。

Flink是大数据的流式计算框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在所在常见集群环境中运行,并能以内存速度和任意规模进行计算,支持批处理和流处理数据,有着高速度和高吞吐的特点,是真正的流批处理计算框架。Doris是一个基于MPP架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。

核心能力

资源隔离:支持资源组隔离,支持节点间workload group精细化的资源管控;

CBO优化器:基于代价的 join reorder,pushdown,RF选择,高并发点查的短路径优化;

向量化:向量化处理,减少虚函数调用和cache miss,高效利用 SIMD 指令,同时支持 X86 和 ARM;

MPP架构:节点间并行和节点内并行,发挥多机多核性能,支持大表的分布式 join ,支持算子落盘;

丰富索引:跳数索引、点查索引、倒排索引等;

物化视图:强一致的单表物化视图,支持通用聚合函数,异步物化视图;

智能缓存:查询结果、数据、元数据、中间数据缓存,内表和外表缓存;

联邦查询:多源数据目录功能,便捷对接外部数据目录,增强数据湖分析和联邦数据查询能力;

分区分桶:支持两级分区存储,第一层为分区(partition),第二层为HASH分桶(bucket),查询高并发精准推送裁剪,快速命中数据;

可视化控制台:界面化简单操作,实现集群服务的部署与管理、日志采集审计、监控告警等运维能力,满足集群运维的基本需求,同时提供元数据管理、查询编辑器、诊断分析、权限管理等能力满足数据分析人员的需求

文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
0
0