产品定义 本章节主要介绍翼MapReduce服务的产品定义、架构与优势。 产品定义 翼MapReduce(简称:“翼MR”),是基于当前开源新版本大数据组件进行产品化封装,可以为客户提供快速部署、便捷维护的HDFS、YARN、Spark、Flink、Hive、Doris、Kafka、HBase等高性能的大数据组件以及运维管理平台,同时产品默认提供强安全验证能力,具备高安全、高扩展、快捷运维等特色,支持批量数据处理、流式数据处理、离线数据分析、在线查询等场景。 产品架构 翼MR集群各个版本组件情况请参见版本概述。 详见下图:翼MR架构图 翼MR架构包括了基础设施和大数据处理流程各个阶段的能力。 ● 基础设施 基于天翼云弹性云主机CTECS构建的大数据集群,整体集群的高可靠和高安全能力可以得到虚拟化底层的充分保证。 虚拟私有云(CTVPC)为每个租户提供虚拟的内部网络,默认与其他网络隔离,同时通过配套的安全组访问控制确保网络层面的安全性。 云硬盘(CTEVS)提供不同规格和性能表现的高可靠存储能力。 弹性云主机(CTECS)提供的弹性可扩展虚拟服务器,结合上述的CTVPC、安全组、CTEVS数据多副本和灾备能力为客户打造一个高效、可靠、安全的业务集群环境。 物理机服务(CTDPS)是基于天翼云软硬结合技术研发的一款拥有极致性能的裸金属服务器,兼具云主机的灵活弹性、物理机的稳定,提供算力强劲的计算类服务,提供专属的云上物理服务器,为大数据、核心数据库、高性能计算等业务提供服务稳定、数据安全、性能卓越的算力服务。 ● 数据集成 数据集成层提供了客户的数据集成进翼MR集群的能力,包括:Kafka、Logstash、SeaTunnel、Flume,支持各种数据源导入数据到翼MR大数据集群中。 ● 数据存储 翼MR支持结构化和非结构化数据在集群中的存储,并且支持多种高效的格式来满 足不同计算引擎的要求。 – HDFS是大数据上通用的分布式文件系统。 – Doris是实时数据仓库服务,具有高并发、低延迟的特点。 – HBase支持带索引的数据存储,适合高性能基于索引查询的场景。 – Elasticsearch支持结构化/非结构化数据的检索、分析场景。 ● 数据调度和计算处理 – 翼MR提供多种主流计算引擎:MapReduce(批处理)、 Spark(内存计算)、Flink(流计算),满足多种离线或实时大数据应用场景,将数据进行结构和逻辑的转换,转化成满足业务目标的数据模型。 – 基于预设的数据模型,使用易用SQL的数据分析,用户可以选择Hive(数据仓库),SparkSQL以及Trino交互式查询引擎。 ● 翼MR Manager 为确保大数据组件服务的高可用性,以Hadoop为基础的大数据生态的各种组件均需要以分布式的方式进行部署,涉及其中的部署、管理和运维复杂度要求较高。翼MR提供了统一的运维管理平台翼MR Manager,包括可视化引导式部署集群能力。同时翼MR Manager还提供了租户与资源管理能力,以及翼MR中各类大数据组件的运维,并提供监控、告警、配置等一站式运维能力。