活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      翼MapReduce

      翼MapReduce

        • 产品动态
        • 产品介绍
        • 产品定义
        • 版本概述
        • 产品优势
        • 功能特性
        • 多租户
        • 安全增强
        • 组件WEB UI便捷访问
        • 可靠性增强
        • 元数据库配置
        • 集群管理
        • 应用场景
        • 术语解释
        • 与其他产品的关系
        • 权限管理
        • 约束与限制
        • 安全
        • 责任共担
        • 身份认证与访问控制
        • 技术支持范围
        • 计费说明
        • 资源节点
        • 产品规格
        • 计费模式
        • 计费价格
        • 购买
        • 变更
        • 续订
        • 退订
        • 快速入门
        • 如何使用翼MR
        • 创建集群
        • 上传示例数据和程序
        • 添加作业
        • 从零开始使用Kerberos认证集群
        • 删除集群
        • 手动修改配置建议书
        • 组件依赖关系表
        • 用户指南
        • 准备用户
        • 创建翼MapReduce操作用户
        • LDAP用户同步
        • 配置集群
        • 创建方式简介
        • 快速创建集群
        • 创建数据湖集群
        • 创建数据分析集群
        • 创建数据服务集群
        • 创建云搜索集群
        • 创建实时数据流集群
        • 创建自定义集群
        • 管理数据连接
        • 配置元数据库
        • 配置存算分离
        • 管理集群
        • 登录集群
        • 翼MapReduce集群节点简介
        • 登录集群节点
        • 集群概览
        • 集群列表简介
        • 查看集群状态
        • 查看集群基本信息
        • 查看集群监控指标
        • 管理组件和主机监控
        • 资源洞察
        • 云监控服务
        • 健康检查
        • 健康检查概述
        • 节点管理
        • 管理节点操作
        • 配置升级
        • 节点扩容
        • 新增节点组
        • 磁盘扩容
        • 远程连接
        • 绑定/解绑弹性IP
        • 绑定/解绑IPv6带宽
        • 组件管理
        • 对象管理简介
        • 查看配置
        • 管理服务操作
        • 集群服务管理
        • 配置服务参数
        • 同步服务配置
        • 管理角色实例操作
        • 启动及停止集群
        • 下载集群的配置数据
        • 支持滚动重启
        • 作业管理
        • 运行MapReduce作业
        • 运行SparkSubmit作业
        • 运行HiveSQL作业
        • 运行SparkSQL作业
        • 运行Flink作业
        • 运行Kafka作业
        • 运行Hue任务
        • 查看主机和组件日志
        • 告警管理
        • 查看告警列表
        • 日志与审计
        • 集群日志
        • 云日志服务
        • 云审计
        • 使用翼MR客户端
        • 下载客户端
        • 安装客户端
        • 各组件客户端使用实践
        • 使用YARN客户端
        • 使用Flink客户端
        • 使用HBase客户端
        • 使用HDFS客户端
        • 使用Hive客户端
        • 使用Kafka客户端
        • 使用Trino客户端
        • 使用ZooKeeper客户端
        • 使用Kyuubi客户端
        • 使用Spark客户端
        • 访问组件Web页面
        • 开源组件Web站点
        • 开源组件端口列表
        • 通过弹性公网IP访问
        • 翼MR Manager操作指导
        • 从这里开始
        • 翼MR Manager入门指导
        • 首页
        • 首页概述
        • 资源概览
        • 资源概览概述
        • 集群服务
        • 集群服务管理概述
        • 集群服务详情页面概述
        • 启动、停止所有集群服务
        • 启动、停止单集群服务
        • 滚动重启单个集群服务
        • 启动、停止、重启实例
        • 滚动停止、滚动重启实例
        • 实例置维护/取消维护
        • 查看集群服务配置
        • 新增配置组
        • 查看配置组详情
        • 删除配置组
        • 查看配置详情
        • 新增配置
        • 编辑配置
        • 配置项对比
        • 配置文件预览
        • 下载配置文件
        • 配置文件历史对比
        • 查看配置历史版本
        • 删除配置
        • 配置同步
        • 查看配置状态
        • 重新同步
        • 配置回滚
        • 查看运维操作历史
        • 查看告警历史
        • 查看集群服务大屏
        • 集群服务健康检查
        • 主机
        • 主机管理页面概述
        • 主机详情页面概述
        • 主机置维护、取消维护
        • 查看主机状态
        • 查看主机实例列表
        • 查看主机实例列表-实例操作
        • 查看主机告警历史
        • 主机健康检查
        • 租户与资源
        • 租户与资源概述
        • 监控与告警
        • 指标查询
        • 告警历史
        • 告警规则-告警规则概述
        • 告警规则-告警规则详情
        • 运维与配置
        • 运维历史-查看运维历史
        • 运维历史-数据展示设置
        • 流水线历史-流水线历史概述
        • 流水线历史-查看流水线运行详情
        • 配置管理-主密码设置
        • 配置管理-配置管理概述
        • 配置管理-新增配置组
        • 配置管理-查看配置组详情
        • 配置管理-删除配置组
        • 配置管理-新增配置
        • 配置管理-查看配置详情
        • 配置管理-编辑配置
        • 配置管理-配置项对比
        • 配置管理-配置文件预览
        • 配置管理-下载配置文件
        • 配置管理-配置文件历史对比
        • 配置管理-查看配置历史版本
        • 配置管理-删除配置
        • 配置管理-配置同步
        • 配置管理-查看配置状态
        • 配置管理-重新同步
        • 配置管理-配置回滚
        • 配置历史-配置历史概述
        • 配置历史-查询配置历史
        • 配置历史-查看配置详情
        • 配置历史-查看配置状态
        • 配置历史-查看配置对比
        • 配置历史-重新同步
        • 配置同步历史-配置同步历史概述
        • 配置同步历史-查看配置同步状态
        • 安全性说明
        • 安全认证原理和认证机制
        • 高危操作一览表
        • 服务配置修改建议
        • 配置升级-服务配置修改建议
        • 多数据盘-服务配置修改建议
        • Master扩容-服务配置修改建议
        • ZooKeeper扩容
        • HDFS扩容
        • YARN扩容
        • Hive扩容
        • 最佳实践
        • Kibana用户体验、性能优化
        • ES集群规划、性能优化
        • Kafka性能调优
        • API参考
        • API使用说明
        • API概览
        • API
        • 2023-11-02
        • 查询集群节点组详情V2
        • 根据id查询集群信息V2
        • 集群信息分页查询V2
        • 根据集群id查询节点组信息V2
        • 创建集群
        • 扩容集群
        • 退订集群
        • 元数据概览
        • 元数据信息查询
        • 常见问题
        • 产品咨询类
        • 翼MR支持什么类型的分布式存储?
        • 什么是区域和可用区?
        • 翼MR是否支持更换网段?
        • 翼MR集群内节点是否支持降配操作?
        • 翼MR集群是否支持Hive on Spark?
        • 不同版本的Hive之间是否可以兼容?
        • 翼MR是否支持Hive on Tez和Hive on Kudu?
        • 翼MR集群内节点上/var/log目录中的日志文件能否清理?
        • Kafka支持的访问协议类型有哪些?
        • 翼MR产品支持Hive元数据库使用内置MySQL类型吗?
        • 是否支持修改翼MR集群中节点的IP地址?
        • 翼MR集群版本对应的操作系统是什么?
        • 翼MR管理控制台和翼MR Manager页面区别与联系?
        • 计费类
        • 购买类
        • 操作类
        • 账号密码类
        • 账号权限类
        • 集群创建类
        • 集群管理类
        • 使用类FAQ
        • 如何查看所有集群?
        • 如何查看主机和组件日志?
        • 如何进行集群服务配置调优?
        • 大数据业务开发
        • 执行Spark任务报内存不足告警如何处理?
        • HBase表如何设置和修改数据保留期?
        • 如何查看HBase日志?
        • HBase支持的压缩算法有哪些?
        • Kafka目前支持的访问协议类型有哪些?
        • 消费Kafka Topic时报错“Not Authorized to access group XXX”如何处理?
        • 翼MR如何连接spark-shell?
        • 翼MR如何连接spark-beeline?
        • Spark job对应的执行日志保存在哪里?
        • Spark.yarn.executor.memoryOverhead设置不生效如何处理?
        • SparkSQL访问Hive分区表启动Job前耗时较长如何处理?
        • 如何获取Spark Jar包?
        • Trino如何配置其他数据源?
        • 性能优化类
        • 组件性能
        • Doris性能优化后TPC-H测试结果
        • 翼MR搜索引擎组件性能对比测试结果
        • Spark组件优化后TPC-DS测试结果
        • 视频专区
        • 文档下载
        • 翼MapReduce服务用户操作指南
        • 相关协议
        • 翼MapReduce产品服务协议
        • 翼MapReduce产品服务等级协议
          无相关产品

          本页目录

          帮助中心翼MapReduce组件性能Spark组件优化后TPC-DS测试结果
          Spark组件优化后TPC-DS测试结果
          更新时间 2024-11-12 15:31:15
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2024-11-12 15:31:15
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本章节主要介绍翼MapReduce服务中Spark组件性能优化后的TPC-DS测试结果。

          背景介绍

          集群环境

          天翼云翼MapReduce Spark版本/开源Spark-3.3.3版本
          USED Processors/Cores/Threads:
          1001+30 YARN Cores(Threads)
          USED Memory:
          5001+60 GB YARN Memory
          Total Processors/Cores/Threads:(40+6)/(1040+168)/(1040+336)
          关闭超线程
          Total Memory:
          7680+384 GBYARN Memory 
          Master节点(3台):
          Processors:
          2 * Intel(R) Xeon(R) Gold 6348 CPU @ 2.60GHz, 28 Cores
          Memory:
          128 GB
          Network:
          Bandwidth: 40 Gbps
          Storage Device:
          2 * 480 GB SSD Disk (boot disk)
          12 * 8 TB HDD
          Core节点(20台):
          Processors:
          2 * Intel(R) Xeon(R) Gold 5320 CPU @ 2.20GHz, 26Cores
          Memory(3 Types):
          384GB(13台 16 GB * 24,16台32 GB * 12,1台16 GB * 4+32 GB * 8)
          Network:
          Bandwidth: 25 Gbps
          Storage Device:
          2 * 480 GB SSD (Boot disk)
          2 * 3.2 TB PCIE NVMe SSD (Data disk)
          8 * 12 TB HDD 
          操作系统:
          CTyunOS 2.0.1

          测试目的及重点

          本测试旨在测试天翼云翼MapReduce服务下Spark计算引擎性能。重点测试Spark引擎进行10T数据量标准TPC-DS测试的QphDS@SF分数,对比开源Spark-3.3.3版本的分数。

          QphDS@SF分数计算公式

          image.png

          参数名称 计算方式 单位 已确认数值
          Sq 自定义(需≥4) Stream 4
          SF 测试数据量的大小 GB 10000
          Q Sq * 99 Queries 396
          T_load 数据导入的时间 Second
          T_ld 0.01 **S*q * T_load Hour
          T_power Power Test时间(99条SQL运行) Second
          T_pt T_power * Sq /3600 Hour
          T_tt1 Throughput Test 1时间(并行4个99条SQL) Second
          T_tt2 Throughput Test 2时间(并行4个99条SQL) Second
          T_dm1 Maintenance Test 1时间(事务操作) Second
          T_dm2 Maintenance Test 2时间(事务操作) Second
          T_tt ( T_tt1+T_tt2 )/3600 Hour
          T_dm ( T_dm1+T_dm2 )/3600 Hour

          测试步骤

          image.png

          测试准备

          生成数据

          通过集成TPC-DS官网测试工具TPC-DS_Tools_v3.2.0的程序来生成数据。通过调整数据生成程序中相关Hadoop参数,优化后续数据导入的时间。

          生成SQL

          从官方提供的99条SQL模板生成Power Test和Throughput Test 所需SQL,从官方提供的mtsqls模板中生成Maintenance Test所需SQL。

          利用工具用以下两种命令生成本次测试使用的SQL。由于生成数据的命令中含有随机数,所以生成的SQL在过滤条件上有所不同。

          ./dsqgen -directory ../query_templates -input ../query_templates/templates.lst -scale $SCALE -streams 9 -output_dir ${QUERY_DIR} -dialect sparksql -rngseed  `date +%m%d%H%M%S%1N`
          sed -i "s/XXX_XX_1/$date1_1/g" ${MT_QUERY_DIR}/mt_queries_$id/*.sql
          

          导入数据Load Test( T_ld )并验证数据量

          将生成的数据以Parquet格式导入到Hive的库中。测试库中有表24张,包括维度表date_dim、time_dim、item、customer、customer_demographics、household_demographics、customer_address、store、promotion、warehouse、ship_mode、reason、income_band、call_center、web_page、catalog_page、web_site共17张和事实表store_sales、store_returns、web_sales、web_returns、catalog_sales、catalog_returns、inventory共7张。

          验证表的数据量结果见下表,10T的数据行数与官网材料参考值会有少许偏差,TPC官网的TPC-DS榜上公司报告中也有同样的情况。

          10T表行数统计

          表名 翼MR Spark/开源Spark-3.3.3 官方参考值
          call_center 54 54
          catalog_page 40000 40000
          catalog_returns 1440033112 1440033112
          catalog_sales 14399964710 14399964710
          customer 65000000 65000000
          customer_address 32500000 32500000
          customer_demographics 1920800 1920800
          date_dim 73049 73049
          household_demographics 7200 7200
          income_band 20 20
          inventory 1311525000 1311525000
          item 402000 402000
          promotion 2000 2000
          reason 70 70
          ship_mode 20 20
          store 1500 1500
          store_returns 2879544257 2879970104
          store_sales 28800104574 28799983563
          time_dim 86400 86400
          warehouse 25 25
          web_page 4002 4002
          web_returns 720020485 720020485
          web_sales 7199963324 7199963324
          web_site 78 78

          运行SQL

          Power Test(T_pt)

          本测试通过脚本中的以下命令,运行99条查询类SQL,并获取运行时间与SQL运行结果。

          spark-sql --properties-file ${spark_conf} --database ${db} -f ${QUERY_DIR}/query_0.sql

          运行sql之前,本测试会通过以下命令,清除集群环境内所有datanode、nodemanager服务所在节点的缓存,以保证结果的可信度与稳定性。

          sync; echo 3 > /proc/sys/vm/drop_caches

          Throughput Test(T_tt)

          本测试为在总资源固定的情况下,并行的运行4个Power Test,并获取运行时间与SQL运行结果。

          Maintenance Test(T_dm)

          本测试为运行包含删除、插入等事务操作的SQL,获取运行时间。本测试所需能力为内部对Spark二次开发获得,开源Spark不支持此能力。如使用Hive事务表,随机测试单条删除语句耗时超过300s,而mt1测试中,共48条删除语句和14条插入语句,因此以开源Spark的mt测试为天翼云翼MR Spark的10倍估算QPhDS@SF分数。

          测试结果

          参数名称 计算方式 单位 天翼云翼MR Spark 开源Spark-3.3.3
          总分
          QPhDS@SF
          image.png QPhDS@SF 18,847,502QphDS@SF 5,394,270QphDS@SF
          Sq 自定义(需≥4) Stream 4 4
          SF 测试数据量的大小 GB 10000 10000
          Q Sq * 99 Queries 396 396
          T_load 数据导入的时间 Second 733.5 858.8
          T_ld 0.01 * Sq * T_load/3600 Hour 0.0081 0.0095
          T_power Power Test时间 Second 1053.6 3802.5
          T_pt T_power * Sq/3600 Hour 1.1707 4.2250
          T_tt1 Throughput Test 1时间 Second 2696.3 7878.0
          T_tt2 Throughput Test 2时间 Second 3052.2 11990.1
          T_dm1 Maintenance Test 1时间 Second 219.4 2194.0
          T_dm2 Maintenance Test 2时间 Second 241.1 2411.0
          T_tt (T_tt1+T_tt2)/3600 Hour 1.5968 5.5189
          T_dm (T_dm1+T_dm2)/3600 Hour 0.1279 1.2792
          机器总花销(元) RMB 2,085,460.5 2,085,460.5
          性能平均花费 Price/Performance RMB/kQphDS@SF 110.65 386.61

          测试结论

          在10T数据量的TPC-DS测试中,限制YARN集群资源为1031核和5061 GB内存,天翼云翼MR Spark获得总分为18,847,502QphDS@10000GB,为开源Spark-3.3.3总分的3.5倍。

          天翼云翼MR Spark在导入(load test)、串行查询(power test)、并行查询(throughput test)、事务(maintenance test)四项测试中性能都超越了开源Spark-3.3.3。其中,串行查询性能相比开源Spark-3.3.3约提升2.61倍;并行查询性能相比开源Spark-3.3.3约提升2.45倍。

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  翼MR搜索引擎组件性能对比测试结果
          下一篇 :  视频专区
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明