创建自定义集群 参数 参数说明 区域 选择区域。 不同区域的云服务产品之间内网互不相通。请就近选择靠近您业务的区域,可减少网络时延,提高访问速度。 集群名称 集群名称不允许重复。 只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。 默认名称为mrsxxxx,xxxx为字母和数字的四位随机组合数,系统自动组合。 集群版本 当前版本为MRS 3.1.0。 集群类型 提供几种集群类型: 分析集群:用来做离线数据分析,提供的是Hadoop体系的组件。 流式集群:用来做流处理任务,提供的是流式处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务,提供的是Hadoop体系的组件和流式处理组件。建议同时需要做离线数据分析和流处理任务时使用混合集群。 自定义:用户可按照业务需求调整集群服务的部署方式,具体请参见 说明 MRS流式集群不支持“作业管理”和“文件管理”功能。如需在集群中安装全部组件,请选择“自定义”类型集群。 组件选择 MRS配套的组件如下: 分析集群组件 Presto:开源、分布式SQL查询引擎。 Hadoop:分布式系统基础架构。 Spark:内存分布式系统框架。(MRS 3.x版本不支持) Spark2x:Spark2x是一个对大规模数据处理的快速和通用引擎,基于开源Spark2.x版本开发。(仅MRS 3.x版本支持) Hive:建立在Hadoop上的数据仓库框架。 HBase:分布式列数据库。 Tez:提供有向无环图的分布式计算框架。 Hue:提供Hadoop UI能力,让用户通过浏览器分析处理Hadoop集群数据。 Loader:基于开源sqoop 1.99.7开发,专为Apache Hadoop和结构化数据库(如关系型数据库)设计的高效传输大量数据的工具。(MRS 3.x版本不支持) Hadoop为必选组件,且Spark与Hive组件需要配套使用。请根据业务选择搭配组件。 Flink:分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。 Oozie:Hadoop作业调度系统。(仅MRS 3.x版本支持) HetuEngine:HetuEngine是一个同异构大数据集的分布式SQL查询引擎。(仅MRS 3.1.x LTS版本支持) Ranger:一个基于Hadoop平台监控和管理数据安全的框架。 Impala:一种处理大量数据的SQL查询引擎。 ClickHouse:ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。CPU架构为鲲鹏计算的ClickHouse集群表引擎不支持使用HDFS和Kafka。 Kudu:一种列存储管理器。 流式集群组件 Kafka:提供分布式消息订阅的系统。 Flume:提供分布式、高可用、高可靠的海量日志采集、聚合和传输系统。 ZooKeeper:一个集中的服务,它用于维护配置信息、命名、提供分布式的同步和提供分组服务。(仅MRS 3.x版本支持) Ranger:一个基于Hadoop平台监控和管理数据安全的框架。(仅MRS 3.x版本支持) 元数据 是否使用外部数据源存储元数据。 本地元数据: 元数据存储在集群本地。 数据连接:使用外部数据源元数据,若集群异常或删除时将不影响元数据,适用于存储计算分离的场景。 支持Hive或Ranger组件的集群支持该功能。 组件名 当“元数据”选择“数据连接”时该参数有效。用于表示可以设置外部数据源的组件类型。 Hive Ranger 数据连接类型 当“元数据”选择“数据连接”时该参数有效。用于表示外部数据源的类型。 Hive组件支持的数据连接类型: − RDS服务MySQL数据库− 本地数据库 Ranger组件支持的数据连接类型: − RDS服务MySQL数据库− 本地数据库 数据连接实例 当“数据连接类型”选择“RDS服务MySQL数据库”时,该参数有效。用于表示MRS集群与RDS服务数据库连接的名称,该实例必选先创建才能在此处引用。可单击“创建数据连接”进行创建,具体请参考