活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      专属云分布式消息服务Kafka_相关内容
      • 资源总览
        面向在训推服务已开通专属集群的用户,旨在让管理员能够轻松查看并管理专属集群的资源使用情况 前置条件 1. 已开通专属集群 2. 账号为主账号或者角色为IAM管理员的子账号 操作步骤 进入资源总览模块,资源总览详情页分为资源&任务大盘、资源利用曲线图、任务列表三大板块。 定位到资源&任务大盘,选择集群,设置时间范围,即可查看选定集群所选时间段内GPU/CPU总量、正在使用量、空闲量以及正在使用量/空闲量占比。可以查看当前训练中任务数、排队中任务数以及排队中任务所需GPU卡数。 定位到资源利用曲线图,设置时间范围,即可查看所选时间段内,GPU/CPU/显存/内存利用率曲线图,支持按每天、每小时查看,支持将数据下载到本地。可以查看GPU/CPU卡时耗时曲线图,启动训练任务数/实例数曲线图,排队中任务所需GPU/CPU峰值数曲线图。 定位到任务列表,设有排队任务管理、运行任务管理、运行历史三个标签页,排队任务可以查看等待时长,可以调整其优先级,优先级越高越优先被调度。运行任务可以查看任务的运行状态及时长,运行历史可以查看运行结束的任务。
        来自:
        帮助文档
        训推服务
        用户指南
        运维观测
        资源总览
      • 云硬盘概述
        本节主要介绍了云硬盘概述、云硬盘类型及性能等。 云硬盘概述 云硬盘(Edge Cloud Disk,ECD)是一种为边缘虚拟机等边缘计算服务提供持久性块存储的服务,云硬盘是一种基于分布式架构的,可弹性扩展的虚拟块存储设备。通过数据冗余和缓存加速等多项技术,提供高可用性和持久性,以及稳定的低时延性能。用户可以对云硬盘做格式化、创建文件系统等操作,并对数据做持久化存储。数据的安全性高,扩展性好,支持三副本机制,数据可支持热迁移等等。 ECX由于边缘节点容量有限,云硬盘相对于云资源池的云硬盘容量要少得多,由于云硬盘多备份技术数据的可靠性相对本地硬盘更高,但如果您有关键数据需要安全存储请优先云资源池的云硬盘。 云硬盘类型及性能 云硬盘主要有三种类型:高IO、通用型SSD、超高IO,可购买的资源以实际展示的库存为准。详细性能如下: 参数 高IO 通用型SSD 超高IO 单个云硬盘的最大IOPS 5000 20000 35000 单个云硬盘的基线IOPS 1800 1800 1800 单个云硬盘IOPS公式 min (5000, 1800 + 8 × 容量) min(20000, 1800 + 12 × 容量) min (35000, 1800 + 50 × 容量) 最大吞吐量 200MB/s 250MB/s 350MB/s 吞吐量公式 min(200,130+0.1×容量) MB/s min(250, 120 + 0.3 × 容量) MB/s min (350, 120 + 0.5 × 容量) MB/s 最大性能云硬盘大小 max(400, 700) max(683, 433) max(664, 460) 典型应用场景 适用于主流的高性能、高可靠应用场景,例如大型开发测试、Web服务器日志以及企业应用。典型的企业应用有SAP、Microsoft Exchange 和 Microsoft SharePoint等。 各种主流的高性能、低延迟交互应用场景,企业办公,大型开发测试,转码类业务,Web服务器日志,容器等高性能系统盘。 适用于超高IO、超大带宽的读写密集型应用场景,例如高性能计算应用场景、分布式文件系统场景、I/O密集型应用场景、各类 NoSQL和关系型数据库部署等场景。
        来自:
        帮助文档
        智能边缘云
        用户指南
        边缘存储
        云硬盘
        云硬盘概述
      • 集群监控大盘
        监控大盘可以让您以全局的视角查看集群与工作空间的资源使用情况,通过此功能,您可从多个角度了解资源的利用情况以便更加合理地分配。 前置条件 资源限制:您已开通专属集群(专属集群需联系客户经理开通),该功能仅统计专属集群相应用量。 用户权限:账号为主账号,或者角色为IAM管理员。 功能介绍 集群监控大盘展现了专属集群下的集群资源概览、存储资源使用情况、集群整体与集群下节点的基础指标监控。进入“运维观测”>“监控大盘”菜单,上方点击“集群”Tab,在顶部栏切换需要查看的专属集群,即可查看该集群的监控,该功能仅对主账号以及IAM管理员用户开放。 集群资源概览 1. 统计说明及名词解释: 1. 该模块数据仅统计专属集群相关数据及展示专属集群监控。 2. 分配:是指分配到工作空间,即相关资源创建配额,该配额绑定工作空间的状态。被分配意味着该资源可以被任务使用:在本平台,建立专属集群后,您需要先创建配额,并在相应的工作空间里绑定配额,才可以在任务中选择配额运行任务,分配是专属集群资源可用的必要步骤。 3. 占用:占用是指被任务中的pod占用,这意味着分配的资源真正被任务使用; 4. 节点:即物理机实例,节点是集群的组成单元,每个节点对应一台物理机。 2. 各指标含义说明: 1. 分配率指标: 指标项 解释 节点健康度 健康节点数:指您所选的专属集群中,状态为Ready‌的节点数。在K8S集群中,Ready表示该节点健康且可接收Pod调度; 节点总数:您所选专属集群下的节点总数; 节点健康度:即健康节点数与总数的比值,反映了集群下可用节点数占比。 CPU分配率 已分配:您所选集群下,已被分配的CPU量; 总核数:您所选集群下的CPU总核数,是所有节点的CPU核数总和; CPU分配率:即已分配数与总核数的比值。 内存分配率 已分配:您所选集群下,已被分配的内存量; 总和数:您所选集群下的内存总量,是所有节点的内存量总和; CPU分配率:即已分配量与总量的比值。 显卡分配率 显卡分配数:您所选集群下,已被分配的显卡数; 显卡总数:您所选集群下的显卡总数,是所有节点的显卡数总和; 显卡分配率:即显卡分配数与显卡总数的比值。 显存分配率 显存分配量:您所选集群下,已被分配的显存量; 显存总量:您所选集群下的显存总量,是所有节点的显存量总和; 显存分配率:即显存分配量与显存总量的比值。 2. 显卡分配明细表: 字段 解释 集群名称 专属集群的名称; 显卡型号 专属集群下相应的显卡型号,比如NVIDIA L40S; 总卡数 指定专属集群下指定显卡型号的总卡数; 分配卡数 在总卡数下,被分配的显卡数; 实际占用卡数 在分配卡数下,实际被任务占用的卡数; 总显存量 指定专属集群下指定显卡型号的总显存量; 分配显存量 在总显存量下,被分配的显存量; 实际占用显存量 在分配显存量下,实际被任务占用的显存量。
        来自:
        帮助文档
        训推服务
        用户指南
        运维观测
        监控大盘
        集群监控大盘
      • 翼MapReduce MRS支持的事件列表
        翼MapReduce(翼MR)是一种基于云计算平台的数据处理分析服务,打造了高可靠、高安全、易使用的运行维护平台,对外提供大容量数据的存储和分析能力,可解决用户实时性要求不高的海量数据存储和处理需求,可以独立申请和使用托管Hadoop、Spark、HBase和Hive组件。 支持的事件列表如下: 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 DBServer主备倒换 dbServerSwitchover 次要 DBServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致。 连续触发主备倒换可能影响Hive服务正常使用,导致Hive服务不可用。 Flume Channel溢出 flumeChannelOverflow 次要 Flume Channel溢出 确认flume的channel配置是否合理,业务量是否有突增。 Flume任务无法正常写入数据到后端。 NameNode主备倒换 namenodeSwitchover 次要 NameNode主备倒换 主备倒换需要和运维人员确认是否为正常操作导致。 连续触发主备倒换可能影响HDFS服务正常使用,读写HDFS文件可能失败。 ResourceManager主备倒换 resourceManagerSwitchover 次要 ResourceManager主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Yarn服务正常使用,导致任务出现异常甚至失败 JobHistoryServer主备倒换 jobHistoryServerSwitchover 次要 JobHistoryServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响MapReduce服务正常使用,导致任务日志读取异常 HMaster主备倒换 hmasterFailover 次要 HMaster主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响HBase服务正常使用 Hue发生主备切换 hueFailover 次要 Hue发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 主备倒换可能影响HUE服务正常使用,导致页面无法使用等问题 Impala HaProxy服务发生主备切换 impalaHaProxyFailover 次要 Impala HaProxy服务发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Impala服务正常使用 Impala StateStoreCatalog服务发生主备切换 impalaStateStoreCatalogFailover 次要 Impala StateStoreCatalog服务发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Impala服务正常使用 LdapServer主备倒换 ldapServerFailover 次要 LdapServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响LdapServer服务正常使用 Loader主备倒换 loaderSwitchover 次要 Loader主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 主备倒换可能影响Loader服务正常使用 Manager主备倒换 managerSwitchover 提示 Manager主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 Manager主备倒换可能导致Manager页面无法正常访问,部分监控可能出现异常数值 作业执行失败 jobRunningFailed 提示 作业执行失败 查看作业管理页面,确认失败任务是否有异常 作业执行过程出现失败 作业被终止 jobkilled 提示 作业被终止 确认任务是否人为下发终止命令 作业执行过程被终止 Oozie工作流执行失败 oozieWorkflowExecutionFailure 次要 Oozie工作流执行失败 查看Oozie日志,确认任务失败原因 Oozie工作流执行失败 Oozie定时任务执行失败 oozieScheduledJobExecutionFailure 次要 Oozie定时任务执行失败 查看Oozie日志,确认任务失败原因 Oozie定时任务执行失败 ClickHouse服务不可用 clickHouseServiceUnavailable 紧急 ClickHouse服务不可用 请参考《MapReduce服务用户指南》的“ALM45425 ClickHouse服务不可用”章节。 ClickHouse服务异常,无法通过FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。 DBService服务不可用 dbServiceServiceUnavailable 紧急 DBService服务不可用 请参考《MapReduce服务用户指南》的“ALM27001 DBService服务不可用”章节。 数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。 DBService主备节点间心跳中断 dbServiceHeartbeatInterruption BetweentheActiveAndStandbyNodes 重要 DBService主备节点间心跳中断 请参考《MapReduce服务用户指南》的“ALM27003 DBService主备节点间心跳中断”章节。 DBService主备间心跳中断时只有一个节点提供服务,一旦该节点故障,再无法切换到备节点,就会服务不可用。 DBService主备数据不同步 dataInconsistencyBetween ActiveAndStandbyDBServices 紧急 DBService主备数据不同步 请参考《MapReduce服务用户指南》的“ALM27004 DBService主备数据不同步”章节。 主备DBServer数据不同步,如果此时主实例异常,则会出现数据丢失或者数据异常的情况。 数据库进入只读模式 databaseEnterstheReadOnlyMode 紧急 数据库进入只读模式 请参考《MapReduce服务用户指南》的“ALM27007 数据库进入只读模式”章节。 数据库进入只读模式,业务数据丢失。 Flume服务不可用 flumeServiceUnavailable 紧急 Flume服务不可用 请参考《MapReduce服务用户指南》的“ALM24000 Flume服务不可用”章节。 当Flume服务不可用时,Flume不能正常工作,数据传输业务中断。 Flume Agent异常 flumeAgentException 重要 Flume Agent异常 请参考《MapReduce服务用户指南》的“ALM24001 Flume Agent异常”章节。 产生告警的Flume Agent实例无法正常启动,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。 Flume Client连接中断 flumeClientDisconnected 重要 Flume Client连接中断 请参考《MapReduce服务用户指南》的“ALM24003 Flume Client连接中断”章节。 产生告警的Flume Client无法与Flume Server端进行通信,Flume Client端的数据无法传输到Flume Server端。 Flume读取数据异常 exceptionOccursWhenFlumeReadsData 重要 Flume读取数据异常 请参考《MapReduce服务用户指南》的“ALM24004 Flume读取数据异常”章节。 如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。 Flume传输数据异常 exceptionOccursWhenFlumeTransmitsData 重要 Flume传输数据异常 请参考《MapReduce服务用户指南》的“ALM24005 Flume传输数据异常”章节。 Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 Flume 证书文件非法或已损坏 flumeCertificateFileIsinvalid 重要 Flume 证书文件非法或已损坏 请参考《MapReduce服务用户指南》的“ALM24010 Flume证书文件非法或已损坏”章节。 Flume证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 Flume 证书文件即将过期 flumeCertificateFileIsAboutToExpire 重要 Flume 证书文件即将过期 请参考《MapReduce服务用户指南》的“ALM24011 Flume证书文件即将过期”章节。 Flume证书文件即将失效,对系统目前运行无影响。 Flume 证书文件已过期 flumeCertificateFileIsExpired 重要 Flume 证书文件已过期 请参考《MapReduce服务用户指南》的“ALM24012 Flume证书文件已过期”章节。 Flume证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 Flume MonitorServer证书文件失效 flumeMonitorServerCertificateFileIsInvalid 重要 Flume MonitorServer证书文件失效 请参考《MapReduce服务用户指南》的“ALM24013 Flume MonitorServer证书文件非法或已损坏”章节。 MonitorServer证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 Flume MonitorServer证书文件即将过期 flumeMonitorServerCertificate FileIsAboutToExpire 重要 Flume MonitorServer证书文件即将过期 请参考《MapReduce服务用户指南》的“ALM24014 Flume MonitorServer证书文件即将过期”章节。 MonitorServer证书文件即将失效,对系统目前运行无影响。 Flume MonitorServer证书文件已过期 flumeMonitorServerCertificateFileIsExpired 重要 Flume MonitorServer证书文件已过期 请参考《MapReduce服务用户指南》的“ALM24015 Flume MonitorServer证书文件已过期”章节。 MonitorServer证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 HDFS服务不可用 hdfsServiceUnavailable 紧急 HDFS服务不可用 请参考《MapReduce服务用户指南》的“ALM14000 HDFS服务不可用”章节。 无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 NameService服务异常 nameServiceServiceUnavailable 重要 NameService服务异常 请参考《MapReduce服务用户指南》的“ALM14010 NameService服务异常”章节。 无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 DataNode数据目录配置不合理 datanodeDataDirectoryIsNotConfiguredProperly 重要 DataNode数据目录配置不合理 请参考《MapReduce服务用户指南》的“ALM14011 DataNode数据目录配置不合理”章节。 如果将DataNode数据目录挂载在根目录等系统关键目录,长时间运行后会将根目录写满,导致系统故障。不合理的DataNode数据目录配置,会造成HDFS的性能下降。 Journalnode数据不同步 journalnodeIsOutOfSynchronization 重要 Journalnode数据不同步 请参考《MapReduce服务用户指南》的“ALM14012 Journalnode数据不同步”章节。 当一个JournalNode节点工作状态异常时,其数据就会与其他JournalNode节点的数据不同步。如 果超过一半的JournalNode节点的数据不同步时,NameNode将无法工作,导致HDFS服务不可用。 NameNode FsImage文件更新失败 failedToUpdateTheNameNodeFsImageFile 重要 NameNode FsImage文件更新失败 请参考《MapReduce服务用户指南》的“ALM14013 NameNode FsImage文件更新失败”章节。 如果主NameNode数据目录的FsImage没有更新,则说明HDFS元数据合并功能异常,需要修复。 如不修复,HDFS在运行一段时间后,Editlog会一直增长。此时如果重启HDFS,由于要加载非常多的Editlog,会导致启动非常耗时。另外,该告警的产生也说明备NameNode功能异常,导致NameNode的HA机制失效。一旦主NameNode故障,则整个HDFS服务将不可用。 DataNode磁盘故障 datanodeDiskFault 重要 DataNode磁盘故障 请参考《MapReduce服务用户指南》的“ALM14027 DataNode磁盘故障”章节。 上报DataNode磁盘故障告警时,表示该DataNode节点上存在故障的磁盘分区,可能会导致已写入的文件丢失。 Yarn服务不可用 yarnServiceUnavailable 紧急 Yarn服务不可用 请参考《MapReduce服务用户指南》的“ALM18000 Yarn服务不可用”章节。 集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。 NodeManager心跳丢失 nodemanagerHeartbeatLost 重要 NodeManager心跳丢失 请参考《MapReduce服务用户指南》的“ALM18002 NodeManager心跳丢失”章节。 丢失的NodeManager节点无法提供Yarn服务。容器减少,集群性能下降。 NodeManager不健康 nodemanagerUnhealthy 重要 NodeManager不健康 请参考《MapReduce服务用户指南》的“ALM18003 NodeManager不健康”章节。 故障的NodeManager节点无法提供Yarn服务。容器减少,集群性能下降。 Yarn 任务执行超时 yarnApplicationTimeout 次要 Yarn 任务执行超时 请参考《MapReduce服务用户指南》的“ALM18020 Yarn任务执行超时”章节。 任务执行超时后的运行时间内,该告警一直存在,但任务仍继续正常执行,没有任何影响。 Mapreduce服务不可用 mapreduceServiceUnavailable 紧急 Mapreduce服务不可用 请参考《MapReduce服务用户指南》的“ALM18021 Mapreduce服务不可用”章节。 集群无法提供Mapreduce服务,如无法通过Mapreduce查看任务日志,无法提供Mapreduce服务的日志归档功能等。 Yarn队列资源不足 insufficientYarnQueueResources 次要 Yarn队列资源不足 请参考《MapReduce服务用户指南》的“ALM18022 Yarn队列资源不足”章节。 应用任务结束时间变长。新应用提交后长时间无法运行。 HBase服务不可用 hbaseServiceUnavailable 紧急 HBase服务不可用 请参考《MapReduce服务用户指南》的“ALM19000 HBase服务不可用”章节。 无法进行数据读写和创建表等操作。 HBase系统表目录或文件丢失 systemTablePathOrFileOfHBaseIsMissing 紧急 HBase系统表目录或文件丢失 请参考《MapReduce服务用户指南》的“ALM19012 HBase系统表目录或文件丢失”章节。 HBase服务重启/启动失败。 Hive服务不可用 hiveServiceUnavailable 紧急 Hive服务不可用 请参考《MapReduce服务用户指南》的“ALM16004 Hive服务不可用”章节。 Hive无法提供数据加载,查询,提取服务。 Hive数据仓库被删除 hiveDataWarehouseIsDeleted 紧急 Hive数据仓库被删除 请参考《MapReduce服务用户指南》的“ALM16045 Hive数据仓库被删除”章节。 Hive默认数据仓库被删除,会导致在默认数据仓库中创建库、创建表失败,影响业务正常使用。 Hive数据仓库权限被修改 hiveDataWarehousePermissionIsModified 紧急 Hive数据仓库权限被修改 请参考《MapReduce服务用户指南》的“ALM16046 Hive数据仓库权限被修改”章节。 Hive默认数据仓库的权限被修改,会影响当前用户,用户组,其他用户在默认数据仓库中创建库、创建表等操作的操作权限范围。会扩大或缩小权限。 HiveServer已从Zookeeper注销 hiveServerHasBeenDeregisteredFromZookeeper 重要 HiveServer已从Zookeeper注销 请参考《MapReduce服务用户指南》的“ALM16047 HiveServer已从Zookeeper注销”章节。 当无法在Zookeeper上读取到Hive的配置,将会导致HiveServer不可用。 tez或者spark库路径不存在 tezlibOrSparklibIsNotExist 重要 tez或者spark库路径不存在 请参考《MapReduce服务用户指南》的“ALM16048 Tez或者Spark库路径不存在”章节。 Tez或者Spark库路径不存在,会影响Hive on Tez,Hive on Spark的功能。 Hue服务不可用 hueServiceUnavailable 紧急 Hue服务不可用 请参考《MapReduce服务用户指南》的“ALM20002 Hue服务不可用”章节。 系统无法提供数据加载,查询,提取服务。 Impala服务不可用 impalaServiceUnavailable 紧急 Impala服务不可用 请参考《MapReduce服务用户指南》的“ALM29000 Impala服务不可用”章节。 Impala服务异常,无法通过FusionInsight Manager对Impala进行集群操作,无法使用Impala服务功能。 Kafka服务不可用 kafkaServiceUnavailable 紧急 Kafka服务不可用 请参考《MapReduce服务用户指南》的“ALM38000 Kafka服务不可用”章节。 集群无法对外提供Kafka服务,用户无法执行新的Kafka任务。 Kafka默认用户状态异常 statusOfKafkaDefaultUserIsAbnormal 紧急 Kafka默认用户状态异常 请参考《MapReduce服务用户指南》的“ALM38007 Kafka默认用户状态异常”章节。 Kafka默认用户状态异常,会影响Broker之间的元数据同步,以及Kafka与ZooKeeper之间的交互,进而影响业务生产、消费和Topic的创建、删除等操作。 Kafka数据目录状态异常 abnormalKafkaDataDirectoryStatus 重要 Kafka数据目录状态异常 请参考《MapReduce服务用户指南》的“ALM38008 Kafka数据目录状态异常”章节。 Kafka数据目录状态异常,会导致该数据目录上所有Partition的当前副本下线,多个节点同时出现数据目录状态异常,可能会导致部分Partition不可用。 存在单副本的Topic topicsWithSingleReplica 警告 存在单副本的Topic 请参考《MapReduce服务用户指南》的“ALM38010 存在单副本的Topic”章节。 单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 KrbServer服务不可用 krbServerServiceUnavailable 紧急 KrbServer服务不可用 请参考《MapReduce服务用户指南》的“ALM25500 KrbServer服务不可用”章节。 告警发生时,不能对集群中的组件KrbServer进行任何操作。其它组件的KrbServer认证将受影响。集群中依赖KrbServer的组件运行状态将为故障。 Kudu服务不可用 kuduServiceUnavailable 紧急 Kudu服务不可用 请参考《MapReduce服务用户指南》的“ALM29100 Kudu服务不可用”章节。 用户无法使用Kudu服务。 LdapServer服务不可用 ldapServerServiceUnavailable 紧急 LdapServer服务不可用 请参考《MapReduce服务用户指南》的“ALM25000 LdapServer服务不可用”章节。 告警发生时,不能对集群中的KrbServer和LdapServer用户进行任何操作。 例如,无法在FusionInsight Manager页面添加、删除或修改任何用户、用户组或角色,也无法修改用户密码。集群中原有的用户验证不受影响。 LdapServer数据同步异常 abnormalLdapServerDataSynchronization 紧急 LdapServer数据同步异常 请参考《MapReduce服务用户指南》的“ALM25004 LdapServer数据同步异常”章节。 LdapServer数据不一致时,有可能是Manager上的LdapServer数据损坏,也有可能是集群上的LdapServer数据损坏,此时数据损坏的LdapServer进程将无法对外提供服务,影响Manager和集群的认证功能。 Nscd服务异常 nscdServiceIsAbnormal 重要 Nscd服务异常 请参考《MapReduce服务用户指南》的“ALM25005 Nscd服务异常”章节。 nscd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到Ldap中的数据,影响上层业务。 Sssd服务异常 sssdServiceIsAbnormal 重要 Sssd服务异常 请参考《MapReduce服务用户指南》的“ALM25006 Sssd服务异常”章节。 sssd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到ldap中的数据,影响上层业务。 Loader服务不可用 loaderServiceUnavailable 紧急 Loader服务不可用 请参考《MapReduce服务用户指南》的“ALM23001 Loader服务不可用”章节。 如果Loader服务不可用,数据加载,导入,转换的功能也不可用。 Oozie服务不可用 oozieServiceUnavailable 紧急 Oozie服务不可用 请参考《MapReduce服务用户指南》的“ALM17003 Oozie服务不可用”章节。 无法使用Oozie服务提交作业。 Ranger服务不可用 rangerServiceUnavailable 紧急 Ranger服务不可用 请参考《MapReduce服务用户指南》的“ALM45275 Ranger服务不可用”章节。 当Ranger服务不可用时,Ranger无法正常工作,Ranger原生UI无法访问。 RangerAdmin状态异常 abnormalRangerAdminStatus 重要 RangerAdmin状态异常 请参考《MapReduce服务用户指南》的“ALM45276 RangerAdmin状态异常”章节。 当存在单个RangerAdmin状态异常时,不影响Ranger原生UI访问;当两个RangerAdmin状态异常时,Ranger原生UI无法访问,无法执行创建、修改、删除策略等操作。 Spark2x服务不可用 spark2xServiceUnavailable 紧急 Spark2x服务不可用 请参考《MapReduce服务用户指南》的“ALM43001 Spark2x服务不可用”章节。 用户提交的Spark任务执行失败。 Storm服务不可用 stormServiceUnavailable 紧急 Storm服务不可用 请参考《MapReduce服务用户指南》的“ALM26051 Storm服务不可用”章节。 集群无法对外提供Storm服务,用户无法执行新的Storm任务。 ZooKeeper服务不可用 zooKeeperServiceUnavailable 紧急 ZooKeeper服务不可用 请参考《MapReduce服务用户指南》的“ALM13000 ZooKeeper服务不可用”章节。 ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件可能无法正常运行。 ZooKeeper中组件顶层目录的配额设置失败 failedToSetTheQuotaOfTopDirectoriesOf ZooKeeperComponent 次要 ZooKeeper中组件顶层目录的配额设置失败 请参考《MapReduce服务用户指南》的“ALM13005 ZooKeeper中组件顶层目录的配额设置失败”章节。 组件可以向对应的ZooKeeper顶层目录中写入大量数据,导致Zookeeper服务不可用。
        来自:
        帮助文档
        云监控服务
        用户指南
        事件监控
        事件监控支持的事件说明
        翼MapReduce MRS支持的事件列表
      • 什么是短信服务
        什么是短信服务(Short Message Service),简称SMS。是一种为用户的手机或其他电信终端提供直接发送或接收文字以及数字信息的服务。 什么是短信服务 短信服务(Short Message Service),简称SMS。 是一种为用户的手机或其他电信终端提供直接发送或接收文字以及数字信息的服务,用户每次能接收和发送短信的最大字符数,是70个中文字符,英文或数字字符。 是天翼云为用户提供的一种通信服务。 是天翼云依托运营商优势为广大企业客户提供的快速触达手机用户短信发送服务。调用API即可发送验证码、通知类短信;验证短信国内秒级触达,到达率最高可达99%;安全、可靠、稳定。 产品优势 支持向国内手机用户发送验证码、短信通知等内容。国内短信支持三网合一专属通道,与工信部携号转网平台实时互联。产品具备电信级运维保障,支持实时监控自动切换,到达率高达99%。 产品功能 短信验证码: 3秒可达,国内短信采用三网合一专属通道,与工信部携号转网平台实时互联。 通道正规、覆盖率高且安全稳定。 短信通知: 安全可靠:保证99%到达率,国内短信具备电信级运维保障,支持实时监控自动切换。 大容量高并发,智能调度。 异步通知: 支持通过回调方式通知用户,进而减少等待时间。 数据统计: 提供请求量、发送成功量、失败量等统计数据。 支持通过日期、手机号等维度查看短信发送详情。 群发助手: SaaS工具,可通过控制台进行短信发送,支持所有短信模板的发送任务。
        来自:
        帮助文档
        云通信-短信(文档停止维护)
        产品介绍
        什么是短信服务
      • 产品优势
        本小节介绍等保咨询都有哪些优势。 一站式服务 提供从定级、备案、自评到整改、测评等一站式等保测评指导服务。 经验丰富 联合专业等保咨询机构,提供专业快捷的等保咨询方案,已在政府、金融、医疗等多个行业有成熟案例。 管理服务 专属的安全专家,提供全程服务,协助您提供测评。 专业快速 提供专业快速的等保定级、备案、差距分析及整改的指导服务。
        来自:
        帮助文档
        等保咨询
        产品简介
        产品优势
      • 名词解释
        名词 说明 短信服务 短信服务(Short Message Service)是天翼云为用户提供的一种通信服务。支持国内快速发送验证码、短信通知。国内短信支持三网合一专属通道,与工信部携号转网平台实时互联。电信级运维保障,实时监控自动切换,到达率高达99%。 国内短信 是天翼云为个人和企业用户提供的纯文本短信发送服务,通过API、群发助手方式调用短信发送功能,将指定信息发送至手机号码,用于个人和企业向用户发送验证码、短信通知等短信。 验证码 是天翼云为个人和企业用户提供的验证码发送服务,国内短信验证码支持三网合一专属通道,秒级可达。适用于App或网站注册、安全登录、支付认证、身份认证、密码找回、账号绑定等应用场景。 短信通知 是天翼云为个人和企业用户提供的短信通知发送服务,支持通知短信,快速触达用户,适用于订单通知、支付通知、物流通知、会议通知、政府通知、生活服务类通知、跨境订单通知、跨境物流通知等应用场景。 短信模板 即具体发送的短信内容模板。短信模版支持验证码、短信通知;验证码和短信通知支持通过变量替换实现个性短信定制。 短信签名 是一种快捷、方便的个性化签名方式。当发送短信时,短信平台会根据设置,在短信内容里附加个性化签名,再发送给被叫手机号码。申请签名的企业用户需要上传相关企业资质证明,个人用户需要上传个人身份证明。
        来自:
        帮助文档
        云通信-短信(文档停止维护)
        产品介绍
        名词解释
      • 计费说明
        本文将为您介绍公共传输通道的计费内容。 收费项目 如需开通公共传输通道服务,请联系专属客户经理或天翼云客服(4008109889)咨询具体价格及计费方式,客户经理会与您沟通商务内容。签署合同后,客户经理将协助您开通公共传输通道业务,并跟进后续产品的变更和退订等相关业务。 公共传输通道产品收费项目分为网络使用费和路由条目增强服务费,如下所示。 收费项目 收费标准 备注 网络使用费 按客户站点收费 按月收取,必选 网络使用费 按天翼云站点收费 按月收取,必选 网络使用费 按第三方云站点收费 按月收取,必选 路由条目增强服务费 20元/条/月 超出部分,按月收取 网络使用费 网络使用费分为三类:一是客户站点网络使用费,二是天翼云资源池站点网络使用费,三是第三方云站点网络使用费。 客户站点 客户站点网络使用费按照IPRAN接入方式的单、双路由区分收取。客户采用双路由IPRAN方式接入CN2时,根据其接入模式来确定IPRAN双接入线路的网络使用费,详见如下内容。 IPRAN双接入模式 网络使用费 主备接入 主线路按IPRAN单路由接入方式标准资费收取; 备线路按IPRAN单路由接入方式标准资费的40%收取。 负载分担 每条接入线路均按IPRAN单路由接入方式标准资费收取。
        来自:
        帮助文档
        公共传输通道
        产品计费
        计费说明
      • 组件依赖关系表
        本章节主要介绍翼MapReduce服务的组件依赖关系。 组件依赖关系说明 组件名称 集群部署的依赖组件 Doris / Elasticsearch / HBase HDFS、ZooKeeper、Kerberos、OpenLDAP HDFS ZooKeeper、Kerberos、OpenLDAP Hive HDFS、YARN、ZooKeeper、Kerberos、OpenLDAP、Hudi、Iceberg、Tez Kafka ZooKeeper、Kerberos、OpenLDAP Kerberos OpenLDAP Kibana Elasticsearch Kyuubi Spark、Hive、HDFS、YARN、ZooKeeper、OpenLDAP、Kerberos、Iceberg、Hudi、Tez OpenLDAP / Ranger HDFS、OpenLDAP、Kerberos、ZooKeeper Spark HDFS、YARN、Hive、ZooKeeper、OpenLDAP、Kerberos、Iceberg、Hudi、Tez Trino Kerberos、OpenLDAP YARN ZooKeeper、Kerberos、HDFS、OpenLDAP ZooKeeper Kerberos、OpenLDAP Flink HDFS、YARN、Kerberos、OpenLDAP、ZooKeeper、Iceberg、SeaTunnel、Hudi Hudi Hive/Spark/Flink Iceberg Hive/Spark/Flink Knox Kerberos、OpenLDAP Logstash / JeekeFS Kerberos、OpenLDAP Tez HDFS、YARN、Hive、ZooKeeper、OpenLDAP、Kerberos、Iceberg、Hudi Flume / KafkaUI Kafka、OpenLDAP、Kerberos、ZooKeeper SeaTunnel HDFS、YARN、Flink、OpenLDAP、Kerberos、ZooKeeper、Iceberg、Hudi Pushgateway / TezUI OpenLDAP、Hudi、Kerberos、Hive、ZooKeeper、Iceberg、Tez、HDFS、YARN Amoro Kerberos、OpenLDAP、ZooKeeper、HDFS、YARN Hue Kerberos、OpenLDAP DolphinScheduler HDFS、OpenLDAP、Kerberos、ZooKeeper
        来自:
        帮助文档
        翼MapReduce
        快速入门
        组件依赖关系表
      • 网络安全产品推荐
        DDoS基础防护封禁通知 当您的IP遭受的DDoS攻击峰值超过IP的防护阈值时,会对IP所在服务器和网络的稳定性造成影响,根据用户协议,IP会进入封禁状态,封禁时间持续24小时。 该封禁状态有通知,会通过IP所属账户的站内信、短信、邮箱渠道进行通知,告知封禁信息。除了账户所有人,您还可以在天翼云控制台消息中心消息订阅消息管理安全消息处配置多个消息接收人,比如将您业务的多位值班或运维人员配置到联系人中,此时安全消息短信会通知告知多个人。 通知内容仅有攻击峰值,不包含攻击源信息。DDoS基础防护主要防护IP所在网络的整体稳定,非单个IP的攻击分析产品,仅能提供目的IP级别遭受DDoS大流量攻击的攻击峰值信息,无法提供源IP级别的信息。若客户需要源IP级别的分析,可选择任意渠道和厂商的DDoS高防产品防护自身业务IP并免于触发DDoS封禁,不局限于天翼云的DDoS高防产品。天翼云和其他云厂商均提供有DDoS高防产品,一般可提供高防IP隐藏业务IP、大流量攻击防护和攻击源分析能力。
        来自:
        帮助文档
        弹性云主机 ECS
        安全合规
        网络安全
        网络安全产品推荐
      • 使用专属云分布式存储过程中的故障处理和影响
        本节介绍了使用专属云(存储独享型)过程中的故障处理和影响。 第一种情况 服务器或者磁盘出现故障后,被踢出存储池,对外呈现的“总可用容量”会变小,故障处理后,“总可用容量”恢复原状。 第二种情况 服务器或者磁盘出现故障后,未被踢出存储池,则存储池降级,不影响存储池使用,故障处理后,存储池恢复正常。 说明 存储池降级指的是,存储池中部分数据由三副本变为两副本,并且在没有人工处理故障的情况下无法自动恢复成三副本。 第三种情况 服务器或者磁盘出现故障后,可能会中断业务。比如存储池已使用98%,此时服务器或者磁盘出现故障,被踢出存储池,由于“总可用容量”变小,导致“已使用容量”/“总可用容量”达到将近100%,存储池写保护,用户业务中断,中断时间为用户写满数据后,到故障处理结束。
        来自:
        帮助文档
        专属云(存储独享型)
        常见问题
        操作类
        使用专属云分布式存储过程中的故障处理和影响
      • 产品定义
        VPC终端节点(VPC Endpoint)使您能够将 VPC 私密地连接到终端节点服务(天翼云服务、 用户私有服务) VPC终端节点(VPC Endpoint)使您能够将 VPC 私密地连接到终端节点服务(天翼云服务、 用户私有服务),该连接使用天翼云内部网络进行连接,不再绕行公网,为您提供性能更加强大、更加灵活的网络。 VPC终端节点为您提供“终端节点服务”和“终端节点”两种资源。 终端节点服务 终端节点服务(VPC Endpoint Service)指将云服务或用户私有服务配置为VPC终端节点支持的服务。分为“网关”和“接口”两种类型。 网关型:由系统配置的受VPC终端节点支持的云服务,用户可直接使用。 接口型:包括系统配置的云服务和用户自己创建的私有服务。 说明 云服务:指云平台上的一些服务被配置为终端节点服务,默认由系统直接配置。用户没有权限配置云服务,您在创建终端节点时可以根据区域直接选择系统中相应的云服务。 用户私有服务:指用户将自己VPC中的服务资源配置为终端节点服务,这些服务资源为增强型负载均衡或者云服务器。 终端节点服务通过专属网关,可以将 VPC 中的服务方便的提供给其它 VPC 中的资源使用,实现跨 VPC 的访问,而不必暴露服务端相关的网络信息,使您的访问更加安全、可靠。 终端节点 终端节点(VPC Endpoint)在VPC和终端节点服务之间提供连接通道。您可以在VPC中创建自己的应用程序并将其配置为终端节点服务,同一区域下的其他VPC可以通过创建在自己VPC内的终端节点访问终端节点服务。包括“接口终端节点”和“网关终端节点”两种类型。 接口终端节点:是指具备私有IP地址的弹性网络接口,作为接口型终端节点服务的通信入口。 网关终端节点:是一个网关,在其上配置路由,用于将流量指向网关型终端节点服务。
        来自:
        帮助文档
        VPC终端节点 VPCE
        产品简介
        产品定义
      • ALM-24004 Flume读取数据异常
        本章节主要介绍ALM24004 Flume读取数据异常的告警。 告警解释 告警模块对Flume Source的状态进行监控,当Source读取不到数据的时长超过阈值时,系统即时上报告警。 默认阈值为0,表示不开启。用户可通过conf目录下的配置文件properties.properties修改阈值:修改对应source的“NoDatatime”参数。 当Source读取到数据,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24004 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 主机名 产生告警的主机名。 AgentId 产生告警的Agent id。 部件类型 产生告警的元素类型。 部件名 产生告警的元素名称。 对系统的影响 如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。 可能原因 Flume Source故障,导致数据无法发送。 网络故障,导致数据无法发送。 处理步骤 检查Flume Source是否故障 1.本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“type spooldir”关键字确认Flume Source是否是spooldir类型。 是,执行步骤2。 否,执行步骤3。 2.查看设置的spoolDir监控目录,是否所有的文件均已传输完毕。 是,处理完毕。 否,执行步骤5。 说明 spooDir的监控目录为用户自定义配置文件properties.properties中.spoolDir的参数值。若监控目录文件已传输完毕,则该监控目录下的所有文件以.COMPLETED后缀结尾。 3.本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“org.apache.flume.source.kafka.KafkaSource”关键字确认Flume Source是否是Kafka类型。 是,执行步骤4。 否,执行步骤7。 4.查看Kafka Source配置的topic数据是否已经消费完毕。 是,处理完毕。 否,执行步骤5。 5.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Flume > 实例”。 6.单击进入故障节点的Flume实例页面,查看监控指标“Source速度指标”,检查告警中的Source速度是否为0。 是,执行步骤11。 否,执行步骤步骤7。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24004 Flume读取数据异常
      • 计费规则
        本节介绍了专属云(存储独享型)的计费规则。 计费模式 支持包年包月的计费模式。 计费项 根据存储池类型、容量和购买量进行计费。 计费方式变更 计费周期内不允许计费方式变更。 到期欠费 为防止相关资源不被停止或者释放,请及时缴费。 购买 本产品项目制销售,购买前需联系客户经理,如果没有客户经理可拨打天翼云客服电话4008109889咨询。 续订 已购资源到期前需联系客户经理进行续订。 退订 本产品不支持无理由退订。
        来自:
        帮助文档
        专属云(存储独享型)
        计费说明
        计费规则
      • 新建MRS Hive连接
        本章节主要介绍新建MRS Hive连接。 本章节以新建MRS Hive连接为例,介绍如何建立DataArts Studio与数据湖底座之间的数据连接。 前提条件 在创建数据连接前,请确保您已创建所要连接的数据湖(如DataArts Studio所支持的数据库、云服务等)。 1. 在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有KMS密钥的查看权限。 2. 在创建MRS HBase、MRS Hive、MRS Kafka、MRS Ranger、MRS Spark、MRS Presto类型的数据连接前,需确保您已创建MRS集群,并且在创建数据链接时已创建选择所需要的组件。 3. 在创建RDS类型的数据连接前,请确保您已创建RDS数据库实例。DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库引擎。 在创建数据连接前,请确保待连接的数据湖与DataArts Studio实例之间网络互通。 1. 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络,确保数据源所在的主机可以访问公网,并且防火墙规则已开放连接端口。 2. 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件: ①DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。 ② DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见《虚拟私有云》帮助文档中的“添加路由信息”章节,配置安全组规则请参见《虚拟私有云》帮助文档中的“安全组 > 添加安全组规则”章节。 ③此外,您还必须确保该云服务的实例与DataArts Studio工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        管理控制台
        使用教程
        新建MRS Hive连接
      • 与其他服务关系
        虚拟私有云 虚拟私有云为分布式缓存服务Redis版实例提供一个逻辑隔离的区域,构建一个安全可靠、 可配置和管理的虚拟网络环境。更多信息请参见虚拟私有云产品定义。 弹性云主机 分布式缓存服务Redis版订购后,默认按照用户选择的实例规格开通弹性云主机,云主机由 CPU、内存、镜像、云硬盘组成,同时结合VPC、安全组、数据多副本保存等能力,打造一个既高效又可靠安全的计算环境,确保分布式缓存服务Redis持久稳定运行。更多信息请参见弹性云主机产品定义。 云硬盘 分布式缓存服务Redis版订购后,默认按照一定的存储大小开通云硬盘。云硬盘是一种可弹性扩展的块存储设备,可以为分布式缓存服务Redis提供高性能、高可靠的块存储服务。更多信息请参见云硬盘产品定义。 弹性IP 弹性IP是可以独立申请的公网 IP 地址,包括公网IP地址与公网出口带宽服务。可以与分布式缓存服务Redis动态绑定和解绑,实现云资源的互联网访问。针对需要公网访问分布式缓存服务Redis版实例的需求,用户可开通弹性IP后,在Redis实例开通页面进行绑定。更多信息请参见绑定公网IP。
        来自:
        帮助文档
        分布式缓存服务Redis版
        产品介绍
        与其他服务关系
      • 功能特性
        本文带您了解训推服务的功能特性。 简化训练和部署的复杂流程 在传统的AI模型研发流程中,科研人员需要经历一系列繁琐的环节,包括数据准备、模型构建、模型训练、模型评估、模型优化以及模型部署等。这些环节不仅涉及数据工程、模型框架、算法开发、模型加速等多个技术领域,还要求科研人员熟练使用数据治理工具、数据标注工具、数据管理工具、数据读取工具等一系列专业工具组件。同时,他们还需处理这些工具与硬件环境、操作系统环境的适配问题,以及管理众多的依赖环境包。这一复杂过程不仅耗时耗力,而且大大提高了模型研发的使用成本和复杂程度。 训推智算服务平台通过整合全链路的工具组件,实现了训练与部署流程的极大简化,为科研人员提供了一站式解决方案。用户无需再为繁杂的工具和环境配置而烦恼,只需专注于模型的核心研发工作。智算开发平台不仅降低了大模型开发的使用门槛,更让AI技术的普及和应用变得更加便捷和高效。 开箱即用,降低调优成本 大模型场景下训练数据处理和使用的过程尤为复杂。硬件层面,需确保编译环境、框架工具、依赖资源包等与硬件完美适配。软件层面,需保障操作系统、深度学习框架、编译器等软件工具的顺畅运行。针对大模型的训练和调优更是加剧了整个过程的复杂程度,同时伴随着大量的时间和算力资源的消耗。传统训练调优工具往往无法满足要求。 训推智算服务平台为用户带来了便利,通过平台,用户无需进行任何额外的配置或调试,开箱即用。平台预置了丰富的预训练模型和镜像环境,针对不同场景提供了多样化预置数据集,确保用户能够迅速投入工作。同时,平台集成了大模型微调训练工具,适用于专属大模型的快速训练。此外,平台还支持分布式训练和DeepSpeed加速框架,提供断点续训功能,支持小样本微调,使用户能够轻松定制专属模型,极大地降低了调优成本,提高了研发效率。
        来自:
        帮助文档
        训推服务
        产品介绍
        功能特性
      • 实例类(1)
        本章节主要介绍分布式消息服务RabbitMQ的实例类问题。 RabbitMQ使用的版本是多少? 服务端RabbitMQ的版本是3.8.35。 RabbitMQ实例SSL连接的协议版本号是多少? TLS v1.2版本。 创建实例时为什么无法查看子网和安全组等信息? 创建实例时,如果无法查看虚拟私有云、子网、安全组、弹性IP,可能原因是该用户无Server Administrator和VPC Administrator权限,增加权限的详细步骤请参考《统一身份认证服务 用户指南》的“用户指南 > 用户组及授权 > 查看或修改或删除用户组”章节。 若其中一台RabbitMQ重启失败,需要会如何处理? 重启RabbitMQ实例时,不会重启实例所在虚拟机,仅重启RabbitMQ进程。 重启集群实例时,若其中一台RabbitMQ进程重启失败,则重启后实例状态依然为“运行中”,并提示“部分节点故障”。在每台虚拟机上都有RabbitMQ的守护进程,定时检查RabbitMQ进程是否存在,当进程不存在时会自动拉起RabbitMQ进程。 如果RabbitMQ实例异常持续超过1分钟,会上报告警。 RabbitMQ集群实例如何均衡分发请求到每个虚拟机? 集群内部使用LVS做负载均衡,由LVS将请求均衡分发到每个虚拟机节点。 RabbitMQ实例集群内部的队列是否有冗余备份? 队列是否做镜像(即冗余备份)取决于用户的需要,如果用户设置了镜像,会在集群中多个代理上存储队列的副本,当某个代理故障,集群会从其他正常的代理中选择一个代理,用来同步队列数据。
        来自:
      • 重启实例
        前提条件 只有当实例状态为“运行中”时才可以进行重启操作。 注意:重启过程中,实例将会有短暂时间停止服务。 操作步骤 1. 登录管理控制台。 2. 进入Kafka管理控制台。 3. 在实例列表页的操作列,目标实例行点击“更多”按钮。 4. 在下拉框内点击“重启”按钮。 5. 点击弹框内的“确认”按钮完成操作,实例状态变为“重启中”。 6. 等待一段时间后,重启成功实例恢复运行状态,否则状态为“重启失败”。
        来自:
        帮助文档
        分布式消息服务Kafka
        用户指南
        实例管理
        重启实例
      • 更新专属宿主机部分信息
        参数 是否必填 参数类型 说明 示例 下级对象 regionID 是 String 资源池ID,您可以查看 a39b0db2989140c79e6de8c21d50f132 decHostID 是 String 专属宿主机ID,获取: 查 73f321ea62ff11eca8bc005056898fe0 decHostName 是 String 专属宿主机展示名称,满足以下条件:名称长度为263字符 获取: 查 dectest
        来自:
        帮助文档
        专属云(计算独享型)
        API参考
        API
        2022-11-30
        新版
        信息修改管理
        更新专属宿主机部分信息
      • 与其他服务的关系
        DCS在使用时与其他服务配合使用,本节简单介绍虚拟私有云、弹性云主机、统一身份认证服务、云监控服务、云审计服务以及对象存储服务。 DCS缓存服务与其他服务的关系 虚拟私有云 虚拟私有云(Virtual Private Cloud,简称VPC)是用户在云上申请的隔离的、私密的虚拟网络环境。用户可以自由配置VPC内的IP地址段、子网、安全组等子服务。 分布式缓存服务运行于虚拟私有云,由虚拟私有云协助管理IP和带宽。虚拟私有云还具备安全组访问控制功能,通过绑定安全组并设置访问规则,可以增强访问分布式缓存服务的安全性。 弹性云主机 弹性云主机(Elastic Cloud Server,简称ECS)是一种可随时自助获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用环境。 成功申请分布式缓存服务后,您可以通过弹性云主机创建的弹性云主机,连接和使用分布式缓存实例。 统一身份认证服务 统一身份认证(Identity and Access Management,简称IAM)是系统的身份管理服务,包括用户身份认证、权限分配、访问控制等功能。 通过统一身份认证服务,实现对分布式缓存服务的访问控制。 云监控服务 云监控服务(Cloud Eye)是云上提供的安全、可扩展的统一监控方案,通过云监控服务集中监控DCS的各种指标,基于云监控服务实现告警和事件通知。
        来自:
        帮助文档
        分布式缓存服务Redis版
        产品简介
        与其他服务的关系
      • 新建DWS连接
        本章节主要介绍新建DWS连接。 本章节以新建DWS连接为例,介绍如何建立DataArts Studio与数据仓库底座之间的数据连接。 前提条件 在创建数据连接前,请确保您已创建所要连接的数据湖(如DataArts Studio所支持的数据库、云服务等)。 1. 在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有KMS密钥的查看权限。 2. 在创建MRS HBase、MRS Hive、MRS Kafka、MRS Ranger、MRS Spark、MRS Presto类型的数据连接前,需确保您已创建MRS集群,并且在创建数据链接时已创建选择所需要的组件。 3. 在创建RDS类型的数据连接前,请确保您已创建RDS数据库实例。DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库引擎。 在创建数据连接前,请确保待连接的数据湖与DataArts Studio实例之间网络互通。 1. 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络,确保数据源所在的主机可以访问公网,并且防火墙规则已开放连接端口。 2. 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件: ①DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。 ②DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见《虚拟私有云》帮助文档中的“添加路由信息”章节,配置安全组规则请参见《虚拟私有云》帮助文档中的“安全组 > 添加安全组规则”章节。 ③此外,您还必须确保该云服务的实例与DataArts Studio工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。
        来自:
        帮助文档
        数据治理中心 DataArts Studio
        用户指南
        管理控制台
        使用教程
        新建DWS连接
      • 使用类
        本节主要介绍使用类问题 如何处理开启了安全认证的微服务引擎专享版开启IPv6后服务注册失败? 创建微服务引擎专享版时,当选择开启了IPv6的VPC网络时,创建引擎支持IPv6网络。当部署服务使用IPv6网段且选择容器部署时,选择的CCE集群需要开启IPv6双栈开关。如果选择的CCE集群资源没有开启IPv6开关,就会导致服务网络不通,报错“java.net.SocketException: Protocol family unavailable”。解决办法: 1、 修改部署了微服务应用的环境,添加开启了“IPv6双栈”开关的CCE集群 2、 重新部署应用 微服务和普通应用有什么不同? 微服务是一种架构模式,其核心是将一个单体应用分成多个部分进行开发。所以微服务架构的应用程序,其本质上是一个分布式应用。 基于微服务架构构建的应用程序,可以让业务变化更快,整体系统可靠性更高。 开源 ServiceComb 与 CSE 是什么关系? CSE Java SDK是ServiceComb的商业版本,其大部分组件来自于开源的ServiceComb,同时提供一些公有云对接的能力、安全、分布式数据一致性等商业能力。这部分开发框架代码可以免费使用但是没有开源。
        来自:
      • 开启跨域访问
        section3aef9b71341e43c4)。 非简单请求的跨域访问 注意 非简单请求的跨域访问需要在API的分组中创建一个“请求方法”为“OPTIONS”的API,作为预检请求。 预检请求API的参数设置,请参考以下说明填写。详细的使用指导可参考非简单请求。 a. 在“前端定义”中,参数填写说明如下: 请求方法:选择“OPTIONS” 请求协议:选择与已开启CORS的API相同的请求协议 请求Path:填斜杠/ b. 在“安全配置”中,安全认证选“无认证”,勾选“开启支持跨域CORS”。 c. 后端服务选择Mock 简单请求 对于简单请求,您需要开启简单跨域访问。 场景一:已开启CORS,且后端服务响应消息中未指定跨域头时,API网关接受任意域的请求,并返回“AccessControlAllowOrigin”跨域头,示例如下: 浏览器发送一个带Origin字段的请求消息: GET /simple HTTP/1.1 Host: www.test.com Orgin: ContentType: application/xwwwformurlencoded; charsetutf8 Accept: application/json Date: Tue, 15 Jan 2019 01:25:52 GMT Origin:此字段必选,表示请求消息所属源,上例中请求来源于“ 后端服务返回响应消息: HTTP/1.1 200 OK Date: Tue, 15 Jan 2019 01:25:52 GMT ContentType: application/json ContentLength: 16 Server: apigateway {"status":"200"} API网关响应消息: HTTP/1.1 200 OK Date: Tue, 15 Jan 2019 01:25:52 GMT ContentType: application/json ContentLength: 16 Server: apigateway XRequestId: 454d689fa69847610b3ca486458fb08b AccessControlAllowOrigin: {"status":"200"} AccessControlAllowOrigin:此字段必选,“”表示API网关接受任意域的请求。 场景二:已开启CORS,且后端服务响应消息中指定跨域头时,后端服务响应的跨域头将覆盖API网关增加的跨域头,示例如下: 浏览器发送一个带Origin字段的请求消息: GET /simple HTTP/1.1 Host: www.test.com Orgin: ContentType: application/xwwwformurlencoded; charsetutf8 Accept: application/json Date: Tue, 15 Jan 2019 01:25:52 GMT Origin:此字段必选,表示请求消息所属源,上例中请求来源于“ 后端服务返回响应消息: HTTP/1.1 200 OK Date: Tue, 15 Jan 2019 01:25:52 GMT ContentType: application/json ContentLength: 16 Server: apigateway AccessControlAllowOrigin: {"status":"200"} AccessControlAllowOrigin:表示后端服务接受“ API网关响应消息: HTTP/1.1 200 OK Date: Tue, 15 Jan 2019 01:25:52 GMT ContentType: application/json ContentLength: 16 Server: apigateway XRequestId: 454d689fa69847610b3ca486458fb08b AccessControlAllowOrigin: {"status":"200"} 后端服务响应消息中的跨域头覆盖API网关响应消息中的跨域头。
        来自:
        帮助文档
        API网关
        开放API网关
        API管理
        开启跨域访问
      • 技术类
        本章节主要介绍故障演练服务技术类问题。 故障演练的实现原理是什么? 不同类型的故障动作实现原理各不相同,详细说明请参考故障动作库中的具体文档,下表简要概述了各类动作的核心原理: 分类 资源类型 动作类型 动作 简介 原理描述 计算 云主机 主机资源 主机宕机 使用云主机接口对实例进行关机 通过调用云主机关机OpenAPI触发关机 计算 云主机 CPU资源 CPU高负载 使用内部自研工具实施CPU高负载 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是启动自定义程序,空跑for循环来消耗CPU时间片 计算 云主机 内存资源 内存高负载 使用内部自研工具实施内存高负载 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是启动自定义程序不断申请内存,模拟主机内存负载升高 注意:设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用 计算 云主机 磁盘资源 IO高负载 使用内部自研工具实施磁盘IO高负载 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是先通过dd命令将数据写入文件中,然后再通过循环读写文件占用磁盘带宽 计算 云主机 磁盘资源 IO Hang 模拟磁盘产生IO Hang效果 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过fsfreeze命令模拟磁盘夯死表现 注意:设置磁盘夯死故障注入后,可能会导致应用无法读写文件产出异常,请谨慎使用 计算 云主机 磁盘资源 磁盘填充 使用内部自研工具实施磁盘填充 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过dd命令将数据写入文件 计算 云主机 网络资源 网络丢包 使用TC和Netem模拟主机内网络丢包 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过增加TC和Netem规则模拟主机内网络丢包 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 计算 云主机 网络资源 网络延迟 使用TC和Netem模拟主机内网络延迟 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过增加TC和Netem规则模拟主机内网络延迟 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 计算 云主机 网络资源 网络包重复 使用TC和Netem模拟主机内网络包重复 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过增加TC和Netem规则模拟主机内网络包重复 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 计算 云主机 网络资源 网络包乱序 使用TC和Netem模拟主机内网络包乱序 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过增加TC和Netem规则模拟主机内网络包乱序 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 计算 云主机 网络资源 网络包损坏 使用TC和Netem模拟主机内网络包损坏 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过增加TC和Netem规则模拟主机内网络包损坏 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 计算 云主机 网络资源 端口占用 模拟指定端口占用 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是启动自定义程序, 创建Socket对象并绑定到指定端口 计算 云主机 网络资源 DNS篡改 篡改指定域名解析到指定IP 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过修改本地DNS解析文件实现 计算 云主机 网络资源 DNS不可用 DNS解析不可用 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过修改本地DNS解析文件或防火墙规则实现 注意:该动作风险较大,请谨慎操作 计算 云主机 JVM故障 JVM延迟 向特定JVM进程注入方法调用延迟故障 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过Java Agent在JVM进程内插入sleep代码来实现 中间件 Redis 集群资源 主从切换 Redis主从切换 通过调用Redis主从切换OpenAPI,触发Redis集群实例进行主从切换 中间件 Redis 节点资源 Redis节点故障 Redis节点发生故障 通过调用Redis停止Redis服务OpenAPI,模拟Redis节点故障,故障会触发Redis HA机制进行自动恢复 中间件 Redis 节点资源 Proxy节点故障 Proxy节点发生故障 通过调用Redis停止Proxy服务OpenAPI,模拟Proxy节点不可用 中间件 Redis 节点资源 节点主机宕机 Redis节点关机 通过关闭节点主机,模拟节点宕机 中间件 Redis 节点资源 CPU高负载 Redis节点CPU高负载 在节点启动自定义程序,空跑for循环来消耗CPU时间片 中间件 Redis 节点资源 内存高负载 Redis节点内存高负载 在节点启动自定义程序不断申请内存,模拟主机内存负载升高 注意:设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用 中间件 Redis 节点资源 磁盘IO高负载 Redis节点磁盘IO高负载 在节点先通过dd命令将数据写入文件中,然后再通过循环读写文件占用磁盘带宽 中间件 Redis 节点资源 磁盘IO Hang Redis节点磁盘IO Hang 在节点通过fsfreeze命令模拟磁盘夯死表现 中间件 Redis 节点资源 网络丢包 Redis节点网络丢包 在节点通过增加TC和Netem规则模拟主机内网络丢包 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 中间件 Kafka 节点资源 Broker节点主机宕机 Broker节点关机 指定或随机一个Broker节点进行关机 中间件 Kafka 节点资源 Broker节点CPU高负载 Broker节点CPU高负载 指定或随机一个Broker节点启动自定义程序,空跑for循环来消耗CPU时间片 中间件 Kafka 节点资源 Broker节点磁盘IO高负载 Broker节点磁盘IO高负载 指定或随机一个Broker节点先通过dd命令将数据写入文件中,然后再通过循环读写文件占用磁盘带宽 中间件 Kafka 节点资源 分区Leader不可用 分区Leader发生故障 指定一个或多个分区Leader,通过调用Kafka模拟Leader故障OpenAPI,触发Leader重新选举 中间件 RCC 集群资源 停止服务 注册配置中心集群服务故障 通过调用RCC停止集群OpenAPI,模拟RCC集群服务故障 中间件 RCC 节点资源 停止节点 注册配置中心节点故障 通过调用RCC停止节点OpenAPI,模拟RCC节点故障 云容器 容器集群 节点资源 托管Master节点宕机 关闭云容器引擎Master节点主机 通过关闭云容器引擎Master节点主机,模拟Master节点宕机(支持托管版本和智算版) 云容器 容器集群 节点资源 节点宕机 关闭云容器引擎纳管的节点主机 通过关闭云容器引擎纳管的节点主机,模拟节点宕机(支持Worker节点或专有版容器Master节点) 云容器 容器集群 节点资源 Etcd节点宕机 停止Etcd服务,模拟Etcd节点宕机 通过停止Etcd节点上的服务,模拟Etcd节点宕机 云容器 集群Node CPU资源 CPU高负载 使用内部自研工具实施CPU高负载 启动自定义程序,空跑for循环来消耗CPU时间片 云容器 集群Node 内存资源 内存高负载 使用内部自研工具实施内存高负载 启动自定义程序不断申请内存,模拟主机内存负载升高 注意:设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用 云容器 集群Node 磁盘资源 IO高负载 使用内部自研工具实施磁盘IO高负载 先通过dd命令将数据写入文件中,然后再通过循环读写文件占用磁盘带宽 云容器 集群Node 磁盘资源 磁盘填充 使用内部自研工具实施磁盘填充 通过dd命令将数据写入文件 云容器 集群Node 网络资源 网络丢包 使用TC和Netem模拟Node内网络丢包 通过增加TC和Netem规则模拟Node内网络丢包 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Node 网络资源 网络延迟 使用TC和Netem模拟Node内网络延迟 通过增加TC和Netem规则模拟Node内网络延迟 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Node 网络资源 网络包重复 使用TC和Netem模拟Node内网络包重复 通过增加TC和Netem规则模拟Node内网络包重复 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Node 网络资源 网络包乱序 使用TC和Netem模拟Node内网络包乱序 通过增加TC和Netem规则模拟Node内网络包乱序 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Node 网络资源 网络包损坏 使用TC和Netem模拟Node内网络包损坏 通过增加TC和Netem规则模拟Node内网络包损坏 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Node 网络资源 DNS篡改 篡改指定域名解析到指定IP 通过修改本地DNS解析文件实现 云容器 集群Node 应用进程 进程停止 终止节点上的指定进程 通过kill 9停止节点上的指定进程 云容器 集群Node 应用进程 进程挂起 挂起节点上的指定进程 通过kill STOP挂起节点上的指定进程 云容器 集群Pod CPU资源 CPU高负载 使用内部自研工具实施CPU高负载 启动自定义程序,空跑for循环来消耗CPU时间片 云容器 集群Pod 内存资源 内存高负载 使用内部自研工具实施内存高负载 启动自定义程序不断申请内存,模拟主机内存负载升高 注意:设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用 云容器 集群Pod 磁盘资源 IO高负载 使用内部自研工具实施磁盘IO高负载 先通过dd命令将数据写入文件中,然后再通过循环读写文件占用磁盘带宽 云容器 集群Pod 磁盘资源 磁盘填充 使用内部自研工具实施磁盘填充 通过dd命令将数据写入文件 云容器 集群Pod 网络资源 网络丢包 使用TC和Netem模拟Pod内网络丢包 通过增加TC和Netem规则模拟Pod内网络丢包 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Pod 网络资源 网络延迟 使用TC和Netem模拟Pod内网络延迟 通过增加TC和Netem规则模拟Pod内网络延迟 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Pod 网络资源 网络包重复 使用TC和Netem模拟Pod内网络包重复 通过增加TC和Netem规则模拟Pod内网络包重复 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Pod 网络资源 网络包乱序 使用TC和Netem模拟Pod内网络包乱序 通过增加TC和Netem规则模拟Pod内网络包乱序 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Pod 网络资源 网络包损坏 使用TC和Netem模拟Pod内网络包损坏 通过增加TC和Netem规则模拟Pod内网络包损坏 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Pod 网络资源 DNS篡改 篡改指定域名解析到指定IP 通过修改本地DNS解析文件实现 云容器 集群Pod Pod资源 Pod删除 删除指定Pod 调用云容器引擎K8S API删除Pod 云容器 集群Pod 应用进程 进程停止 终止节点上的指定进程 通过kill 9停止节点上的指定进程 云容器 集群Pod 应用进程 进程挂起 挂起节点上的指定进程 通过kill STOP挂起节点上的指定进程 云容器 集群Pod JVM故障 JAVA方法调用延迟 指定JVM进程与方法增加调用延迟 通过Java Agent拦截指定JVM进程内方法,增加sleep操作模拟调用延迟 云容器 集群Pod JVM故障 JAVA方法抛自定义异常 指定JVM进程与方法抛出自定义异常 通过Java Agent拦截指定JVM进程内方法,增加thow操作模拟抛出异常 云容器 容器镜像 Harbor服务 Harbor服务不可用 停止Harbor服务,模拟容器镜像仓库不可用 通过调用容器镜像服务OpenAPI,停止Harbor服务,模拟容器镜像仓库不可用
        来自:
        帮助文档
        应用高可用
        常见问题
        故障演练服务
        技术类
      • 计费类
        本节介绍了容器镜像服务常见问题:计费类。 容器镜像服务是否收费? 容器镜像服务分为个人版和企业版,目前个人版免费,企业版按实例数收费。 容器镜像服务企业版支持什么规格? 企业版提供标准规格,相比个人版(3个命名空间限额,100个镜像仓库限额,10G存储空间),企业版(15个命名空间限额,1000个镜像仓库限额,专属对象存储)更符合企业需要,并且企业版支持订购时增加额外的限额。
        来自:
        帮助文档
        容器镜像服务
        常见问题
        计费类
      • 告警配置
        本文介绍告警管理功能的使用方式。 操作步骤 1. 登录ECX控制台。 2. 点击左侧栏【服务管理>告警管理】并进入。 3. 告警管理版块可以查看和管理告警配置、告警模板、告警消息。 说明 告警管理版块支持对以下类型的资源实例或场景进行监控告警:边缘虚拟机【类型请选择“边缘虚机”】、边缘虚拟机带宽、边缘裸金属带宽、NAT网关、边缘云专线实例,及边缘虚拟机带宽汇总、边缘裸金属带宽汇总。 新增告警策略 1. 登录ECX控制台, 点击【服务管理>告警管理>告警配置】,可以查看配置的告警策略。 2. 点击【+新增告警规则】,创建一个告警策略。 3. 输入策略名称、选择监控类型、输入备注信息。 4. 选择对指定资源进行告警,还是对所有资源进行告警。如果对指定资源进行告警,还需要选择具体告警对象。 5. 支持通过模板快速配置,可以在【服务管理>告警管理>告警模板】中创建和管理告警策略模板。 6. 选择告警恢复时是否需要通知。 7. 选择告警级别,支持紧急告警、警告告警、注意告警三个级别。 8. 配置告警指标,选择具体的指标、条件、阈值,当监控对象满足条件时,将会触发此告警策略、产生告警消息。 9. 设置告警通知策略:选择告警接收组,当产生告警消息时,将会通知接收组中配置的联系人。通知方式支持邮件、短信,是否支持重复通知、接收通知的周期和时间段。接收组在【服务管理>消息管理>消息接收组】中配置。
        来自:
        帮助文档
        智能边缘云
        运维与监控
        告警配置
      • 可靠性增强
        节点磁盘LVM配置 翼MR支持将多个磁盘配置成LVM(Logic Volume Management),多个磁盘规划成一个逻辑卷组。配置成LVM可以避免各磁盘间使用不均的问题,保持各个磁盘间均匀使用在HDFS和Kafka等能够利用多磁盘能力的组件上尤其重要。并且LVM可以支持磁盘扩容时不需要重新挂载,避免了业务中断。 数据可靠性 翼MR可利用弹性云服务器ECS提供的反亲和节点组以及放置组的能力,结合Hadoop的机架感知能力,将数据冗余到多个物理宿主机上,避免物理硬件的失效造成数据的失效。
        来自:
        帮助文档
        翼MapReduce
        产品简介
        功能特性
        可靠性增强
      • 工作说明书
        第5章 前提条件 客户需提前至少20个工作日申请应用容灾服务,天翼云解决方案架构师评估需求可行性,确定是否提供应用容灾服务。 应用容灾现场服务2人天起售,需提前15个工作日申请,现场服务只在应用容灾服务的服务期内提供,应用容灾现场服务工作时间为工作日9:00~18:00。 若已购买现场服务,客户须提供安全的办公环境,并保障天翼云驻场人员的人身安全。 应用容灾现场服务,客户需签署应用容灾服务进场和离场报告或签到表。 客户需审核天翼云制定的应用容灾服务计划和服务方案,以书面形式(包括但不限于电子邮件)确认。如无正当技术理由,不能否定双方已确认的服务计划和服务方案。 方案落地过程中,客户可能需要购买天翼云或甄选商城的第三方服务,若不购买这些服务,方案无法落地。 第6章 服务地点 应用容灾服务为远程交付,若已购买现场服务,客户需提供现场服务地址。 第7章 服务内容 服务内容 服务描述 交付物 现状调研 业务现状、业务架构、客户目标调研 需求分析 客户业务目标和现有架构梳理及分析 容灾方案输出 提供业务容灾方案,包括应用容灾、数据库容灾、存储容灾等 应用容灾方案 容灾演练方案输出 输出容灾演练方案,包括容灾环境的搭建、业务切换等 技术支持 在交付期内,为容灾演练实施提供技术支持 服务说明: 专属架构师作为天翼云应用容灾服务的统一接口,对接客户的应用容灾工作。 天翼云为客户提供应用容灾服务群,可按客户习惯使用微信群、企业微信群或钉钉群的一种。 天翼云不负责非天翼云平台(如第三方平台、软件、应用)的应用容灾工作。
        来自:
        帮助文档
        专家技术服务
        应用容灾服务
        工作说明书
      • 主子账号
        本章介绍如何使用主子账号体系管理子账号权限 概述 分布式消息服务MQTT已接入主子账号体系,可区分两种账号权限,实现主账号对子账号的数据权限管理与功能权限管理,支持系统策略和自定义策略的授权方式。本章介绍如何使用主子账号体系管理子账号权限。 背景 1. 主账号 :用户在天翼云注册后自动创建,该账号对其所拥有的资源具有完全的访问权限,可以重置用户密码、分配用户权限等。如果需要多人共同使用天翼云资源,由于账号是付费主体为了确保账号安全,建议创建子用户来进行日常管理工作。 2. 子账号 :主账号认证为企业账号后,在天翼云用户中心页面创建出来的账号。子账号的用户名、密码统一由主账号创建管理。子账号同样可以登录访问天翼云控制台,登录入口与主账号相同,受主账号赋予的权限限制。 3. 企业项目: 将云资源、企业成员按项目进行管理,通过企业项目将云资源、带有权限的用户组绑定到一起,用户使用项目内云资源的权限受用户组的授权限制。 注意 一个实例只能归属一个企业项目(可变更),一个子账号可以同时在多个企业项目中。 4. 策略: 是描述一组权限集的语言,它可以精确地描述被授权的资源集和操作集,通过策略,用户可以自由搭配需要授予的权限集。通过给用户组授予策略,用户组中的用户就能获得策略中定义的权限。 5. 系统策略: 系统预置的常用权限集,主要针对不同云服务的只读权限或管理员权限,比如对组件的只读权限、普通用户权限和管理员权限等等;系统策略只能用于授权,不能编辑和修改。 6. 数据权限: 看到的数据不一样。主账号看到所有实例,子账号只能看到所属项目中的实例。 7. 功能权限: 主账号可以进行所有控制台操作,子账号对单个组件实例拥有的操作权限由主账号授权。 8. 功能权限授权: 给子账号在企业项目A下增加一个策略,即代表该子账号对企业项目A下的实例拥有了策略中定义的权限,策略以外的操作会被禁止。
        来自:
        帮助文档
        分布式消息服务MQTT
        用户指南
        权限管理
        主子账号
      • 主子账号
        本章介绍如何使用主子账号体系管理子账号权限 概述 分布式消息服务RabbitMQ已接入主子账号体系,可区分两种账号权限,实现主账号对子账号的数据权限管理与功能权限管理,支持系统策略和自定义策略的授权方式。本章介绍如何使用主子账号体系管理子账号权限。 背景 1. 主账号:用户在天翼云注册后自动创建,该账号对其所拥有的资源具有完全的访问权限,可以重置用户密码、分配用户权限等。如果需要多人共同使用天翼云资源,由于账号是付费主体为了确保账号安全,建议创建子用户来进行日常管理工作。 2. 子账号:主账号认证为企业账号后,在天翼云用户中心页面创建出来的账号。子账号的用户名、密码统一由主账号创建管理。子账号同样可以登录访问天翼云控制台,登录入口与主账号相同,受主账号赋予的权限限制。 3. 企业项目:将云资源、企业成员按项目进行管理,通过企业项目将云资源、带有权限的用户组绑定到一起,用户使用项目内云资源的权限受用户组的授权限制。 注意 一个实例只能归属一个企业项目(可变更),一个子账号可以同时在多个企业项目中。 4. 策略: 是描述一组权限集的语言,它可以精确地描述被授权的资源集和操作集,通过策略,用户可以自由搭配需要授予的权限集。通过给用户组授予策略,用户组中的用户就能获得策略中定义的权限。 5. 系统策略: 系统预置的常用权限集,主要针对不同云服务的只读权限或管理员权限,比如对组件的只读权限、普通用户权限和管理员权限等等;系统策略只能用于授权,不能编辑和修改。 6. 数据权限: 看到的数据不一样。主账号看到所有实例,子账号只能看到所属项目中的实例。 7. 功能权限: 主账号可以进行所有控制台操作,子账号对单个组件实例拥有的操作权限由主账号授权。 8. 功能权限授权: 给子账号在企业项目A下增加一个策略,即代表该子账号对企业项目A下的实例拥有了策略中定义的权限,策略以外的操作会被禁止。
        来自:
        帮助文档
        分布式消息服务RabbitMQ
        用户指南
        权限管理
        主子账号
      • 权限配置概述
        本节介绍委托、IAM权限策略和RBAC权限关系,以及如何为服务账号授予相应权限。 根据权限类型,分布式云容器平台的权限包括服务角色、IAM权限策略和RBAC权限。您需要为服务账号授予对应的权限,才能正常使用分布式云容器平台的功能。 权限类型 权限类型 是否必须授权 授权说明 委托 使用开通订购功能时必须授权,使用主账号或子账号授权一次即可。 授权后分布式云容器平台才能访问其他关联的云服务资源。 IAM系统权限策略 主账号默认拥有所有权限,无需额外授权。而子账号必须授权后才能访问分布式云容器平台。 授权后子账号才能使用分布式云容器平台系统功能。 RBAC权限 主账号默认拥有所有权限,无需额外授权。子账号可以根据需求授予权限,如果没有授权,则采用默认只读权限。 授权后,子账号才能对分布式云容器平台集群内的K8s资源进行操作。 委托 云服务委托是指,在特定业务场景下,云服务为实现特定功能目标,通过获取其他云服务的访问权限,自动化管理关联资源,从而优化整体服务质量的一种协作机制。 例如,分布式云容器平台上订购注册集群后,需要关联创建ELB、安全组等资源。分布式云容器平台通过委托机制获取关联服务权限,从而自动地完成配置和关联资源创建,提升订购功能的使用体验。 分布式云容器平台目前提供以下服务角色,具体的策略内容请参见IAM控制台。 委托名称 权限说明 CtyunAssumeRoleForCCEONE 分布式云容器平台在集群管控操作中使用该角色访问您在ELB、EIP、安全组等服务中的资源。
        来自:
        帮助文档
        分布式容器云平台 CCE One
        用户指南
        平台服务
        权限配置
        权限配置概述
      • 1
      • ...
      • 33
      • 34
      • 35
      • 36
      • 37
      • ...
      • 644
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      物理机 DPS

      多活容灾服务 MDR

      镜像服务 IMS

      轻量型云主机

      弹性伸缩服务 AS

      弹性高性能计算 E-HPC

      AI Store

      公共算力服务

      科研助手

      推荐文档

      如何激活代金券?

      管理云间高速

      支持的监控指标

      实例详情

      服务器迁移的优势

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号