技术架构图
方案优势
该架构主要以Flink为实时数据的采集、计算,使用Doris进行数据的存储、实时数仓构建,实现了海量实时数据高效处理,支持数据实时写入与更新,实时数据写入即可查可用。
Flink是大数据的流式计算框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在所在常见集群环境中运行,并能以内存速度和任意规模进行计算,支持批处理和流处理数据,有着高速度和高吞吐的特点,是真正的流批处理计算框架。Doris是一个基于MPP架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。
核心能力
l 资源隔离:支持资源组隔离,支持节点间workload group精细化的资源管控;
l CBO优化器:基于代价的 join reorder,pushdown,RF选择,高并发点查的短路径优化;
l 向量化:向量化处理,减少虚函数调用和cache miss,高效利用 SIMD 指令,同时支持 X86 和 ARM;
l MPP架构:节点间并行和节点内并行,发挥多机多核性能,支持大表的分布式 join ,支持算子落盘;
l 丰富索引:跳数索引、点查索引、倒排索引等;
l 物化视图:强一致的单表物化视图,支持通用聚合函数,异步物化视图;
l 智能缓存:查询结果、数据、元数据、中间数据缓存,内表和外表缓存;
l 联邦查询:多源数据目录功能,便捷对接外部数据目录,增强数据湖分析和联邦数据查询能力;
l 分区分桶:支持两级分区存储,第一层为分区(partition),第二层为HASH分桶(bucket),查询高并发精准推送裁剪,快速命中数据;
l 可视化控制台:界面化简单操作,实现集群服务的部署与管理、日志采集审计、监控告警等运维能力,满足集群运维的基本需求,同时提供元数据管理、查询编辑器、诊断分析、权限管理等能力满足数据分析人员的需求