电信云大数据saas服务_电信云大数据saas服务文档介绍内容-天翼云

GPUStack产品使用手册
GPUStack产品使用手册,含单机版和集群版(Worker、Server) 产品概述 1.1 产品介绍 GPUStack云服务是基于开源GPUStack构建的托管式AI模型部署平台，让您无需管理基础设施，即可在高性能GPU集群上轻松部署和运行各类AI模型，支持单机版和集群版（Worker、Server）。单机版集群版面向用户个人、中小团队或企业内部企业研发团队、实验室、AI算力平台适用场景 1. 个人开发者的大模型微调、推理效果验证 2. 小团队的算法原型开发、单卡模型性能测试 3. 教学科研场景的小规模 AI 实验 4. 临时算力需求（如短期模型 demo 制作) 1. 企业大模型训练 / 推理的规模化算力需求 2. 多团队共享 GPU 算力池的资源管控场景 3. 高并发模型服务（如智能客服等） 4. 异构 GPU 资源混合调度（支持 NVIDIA/昇腾等）资源配置单GPU服务器 Server节点：8C/16G 计算型服务器 Worker节点：1~N台GPU服务器（支持英伟达、昇腾等不同厂商GPU卡） 1.2 产品核心能力资源管理：提供自动化GPU资源调度与集群管理，支持异构GPU设备统一纳管，实现资源利用率最大化与成本最优化；模型部署：支持主流开源大模型一键部署，兼容Hugging Face、ModelScope等模型源，集成vLLM、SGLang和TensorRTLLM等高性能推理引擎，满足不同场景性能需求；智能运维：内置自动扩缩容、故障转移与负载均衡机制，提供实时性能监控与告警，确保服务高可用性与稳定性；安全管控：提供完善的认证授权体系与网络隔离策略，支持私有化部署与数据安全保障，满足企业级安全合规要求。

来自：
帮助文档
应用云主机
产品简介
应用使用手册
GPUStack产品使用手册
弹性云主机可以做什么
本文向您介绍弹性云主机可以做什么弹性云主机可以用作多种用途，适用于包括搭建门户网站、部署电子商务业务、游戏部署、大数据分析等场景。具体请参考：产品适用场景。如需根据不同场景选择云主机，请参考：弹性云主机选型。

来自：
帮助文档
弹性云主机 ECS
常见问题
产品咨询类
弹性云主机可以做什么
术语解释
模版高性能计算集群额提供基础版和大模型精简版，可供用户快速配置不同的场景。基础版提供通用型基础集群服务，面向的场景不局限于超算、智算，是一个通用性的算力底座模板。大模型精简版搭配SLURM调度器，提供高带宽和极低延迟的网络服务，能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。

来自：
帮助文档
弹性高性能计算 E-HPC
产品介绍
术语解释
产品定义
本章节介绍了什么是云主机备份,以及该产品的架构和基本功能模块。云主机备份简介该服务目前仅提供给部分存量用户使用，云服务备份（CBR）服务融合了云主机备份（CSBS），新用户请前往云服务备份进行使用。云主机备份（CTCSBS，Cloud Server Backup Service）提供对弹性云主机的备份保护服务，支持基于多云硬盘一致性快照技术的备份服务，并支持利用备份数据恢复弹性云主机（简称云主机）数据，最大限度保障用户数据的安全性和正确性，确保业务安全。云主机备份提供申请即用的备份服务，使您的数据更加安全可靠。例如，当云主机出现故障或者人为错误导致数据误删时，可以自助快速恢复数据。云主机备份对于首次备份的云主机，系统默认执行全量备份。已经执行过备份并生成可用备份的云主机，系统默认执行增量备份。无论是全量还是增量备份都可以快速、方便地将云主机的数据恢复至备份所在时刻的状态。云主机备份通过云主机与对象存储服务的结合，将云主机的数据备份到对象存储中，高度保障用户的备份数据安全。云主机备份的产品架构如图。

来自：
帮助文档
云主机备份 CSBS
产品简介
产品定义
创建云主机备份存储库
帮助用户完成云主机备份存储库的创建，快速创建云主机备份容器。操作步骤 1. 登录云服务备份管理控制台。 a. 登录管理控制台。 b. 单击管理控制台左上角的，选择区域。 c. 单击“”，选择“存储 > 云服务备份”。选择对应的备份目录。 2. 在界面右上角单击“购买云主机备份存储库”。 3. 选择计费模式。包年包月是预付费模式，按订单的购买周期计费，适用于可预估资源使用周期的场景，价格比按需计费模式更优惠。按需计费是后付费模式，根据实际使用量进行计费，可以随时购买或删除存储库。费用直接从账户余额中扣除。 4. 选择保护类型。备份：创建的存储库类型为云主机备份存储库，用于存放云主机备份。说明单AZ备份：备份数据仅存储在单个可用区（AZ），成本更低。多AZ备份：备份数据冗余存储至多个可用区（AZ），可靠性更高。 5. 选择是否启用数据库备份（该功能目前仅在部分资源池上线）。启用：启用后，存储库可用于存放数据库备份。通过数据库备份内存数据，能够保证应用系统一致性，如包含MySQL或SAP HANA数据库的弹性云主机。如果数据库备份失败，系统会自动执行云主机备份，云主机备份也会存放在数据库备份存储库中。不启用：仅对绑定的云主机进行普通的云主机备份，通常用于不包含数据库的弹性云主机。 6. （可选）在云主机列表中勾选需要备份的云主机或磁盘。勾选后将在已勾选服务器列表区域展示，如下图所示。可以选择云主机部分磁盘绑定至存储库。注意考虑到恢复后数据的一致性问题，建议您对整个云主机进行备份。若您希望选择部分磁盘备份以节省成本，请尽量确保这些磁盘的数据不受其他未备份磁盘的数据影响，否则可能会导致数据不一致问题。例如，Oracle应用的数据分散在不同磁盘上，如果只备份了部分磁盘，会导致恢复后数据不一致（已备份磁盘恢复到历史时间点数据，未备份磁盘仍保留当前数据），甚至导致应用无法启动。图选择云主机说明所选云主机未绑定存储库且状态必须为“运行中”或“关机”。若不勾选云主机，如需备份可在创建存储库后绑定云主机即可。 7. 输入存储库的容量。取值范围为[10，10485760]GB。您需要提前规划存储库容量，存储库的容量不能小于备份云主机的大小，开启自动绑定功能和绑定备份策略后所需的容量更大。在使用过程中资源新增磁盘或磁盘进行扩容，未开启自动扩容的情况下存储库不会进行自动扩容。如果实际使用时存储库容量不足，可以通过扩容存储库扩大容量。 8. 选择是否配置自动备份。立即配置：配置后会将存储库绑定到备份策略中，整个存储库绑定的云主机都将按照备份策略进行自动备份。可以选择已存在的备份策略，也可以创建新的备份策略。暂不配置：存储库将不会进行自动备份。 9. 如开通了企业项目，需要为存储库添加已有的企业项目。企业项目是一种云资源管理方式，企业项目管理提供统一的云资源按项目管理，以及项目内的资源管理、成员管理，默认项目为default。 10. （可选）为存储库添加标签。标签以键值对的形式表示，用于标识存储库，便于对存储库进行分类和搜索。此处的标签仅用于存储库的过滤和管理。一个存储库最多添加10个标签。 11. 输入待创建的存储库的名称。只能由中文字符、英文字母、数字、下划线、中划线组成，且长度小于等于64个字符。例如：vaultf61e。也可以采用默认的名称，默认的命名规则为“vaultxxxx”。 12. 当计费模式为“包年/包月”时，需要选择购买时长。可选取的时间范围为1个月~5年。可以选择是否自动续费，勾选自动续费时：按月购买：自动续费周期为1个月。按年购买：自动续费周期为1年。 13. 根据页面提示，完成支付。 14. 返回云主机备份页面。可以在存储库列表看到成功创建的存储库。

来自：
帮助文档
云服务备份
快速入门
创建存储库
创建云主机备份存储库
基本概念
概念说明命名空间用于进行租户粒度的配置隔离。命名空间可以实现不同环境的配置的区分隔离，例如开发测试环境和生产环境的资源（如配置、服务）隔离等。配置集配置项的集合称为配置集。通常一个配置文件就是一个配置集，包含了系统各个方面的配置。配置集ID Nacos中的某个配置集的ID。一个系统或者应用可以包含多个配置集，每个配置集都可以被一个名称标识。分组 Nacos中的一组配置集，是组织配置的维度之一。通过字符串对配置集进行分组，从而区分配置集ID相同的配置集。如果未填写配置分组的名称，则默认为DEFAULTGROUP。保护阈值保护阈值与集群中健康实例的占比有关。如果健康实例占比小于或等于此值，会触发保护阈值，Nacos会将全部实例（健康实例+非健康实例）全部返回给调用者。保护阈值未触发时，Nacos只会把健康实例返回给调用者。灰度发布在配置正式发布前可先进行小部分的发布验证，待配置没问题后再正式发布，从而降低配置推送的风险。权重实例级别的配置。权重为浮点数。权重越大，分配给该实例的流量越大。元数据 Nacos数据（如配置和服务）描述信息，如服务版本、权重等，从作用范围来看，可分为服务级别的元信息、集群的元信息及实例的元信息。

来自：
帮助文档
微服务引擎
产品简介
基本概念
版本升级
本节介绍了DRDS版本升级的操作场景、注意事项、操作步骤等内容。什么是DRDS系列优选版本？ DRDS内核版本通常由4位数字组成（如3.0.8.x），取前三位数字作为大版本号（如3.0.8）。每个大版本会在版本迭代过程中发布一系列小版本，本系列优选版本是当前大版本下的推荐版本，通常是最新且最稳定的小版本。对于同一大版本下的DRDS实例，将内核版本升级至本系列优选版本属于小版本升级，通常涉及问题修复和优化，语法兼容风险较小，推荐客户将实例升级至本系列优选版本。什么是DRDS最新版本？当前DRDS最新大版本的优选版本。操作场景 DRDS支持手动升级内核版本，可选择当前系列优选版本和最新版本升级。系列优选版本：相同大版本下的推荐版本。改动较小，兼容风险较小。最新版本：最新大版本下的推荐版本。改动涉及新特性、性能优化、问题修复，属于大版本升级，存在兼容性风险，建议升级前做充分的业务测试。新创建的DRDS实例默认为最新版本。如果华为云有新的内核版本发布时，您可以在“实例管理”页面的“版本”列看到内核版本升级提示，单击“版本升级”弹出升级版本弹窗。注意事项升级数据库内核版本会重启DRDS实例，服务可能会出现闪断，请您尽量在业务低峰期执行该操作，或确保您的应用有自动重连机制。如果实例已经为本系列优选版本，则只可升级至最新版本。如果当前版本与升级目标版本跨度较大，请务必在测试实例上做好充分的业务兼容性测试后，再进行生产实例的版本升级，确保生产业务稳定不受影响。版本升级后如有业务不兼容问题，可及时将版本回滚至升级前版本，详细内容请参考版本回滚。

来自：
帮助文档
分布式关系型数据库
用户指南
实例管理
版本升级
功能特性
本章节为您介绍了天翼云ECX的功能特性。提供多重保障和手段，实现业务高可用高可用多副本存储，云硬盘、整机的快照备份，快照回滚、备份恢复。虚拟机冷热迁移及反亲和，故障自愈。多样化监控指标和告警，图形化展示，帮助快速发现和处理问题。支持专属网络和经典网络，可选择其一或两者兼具专属网络即VPC，支持NAT、SLB、VPN等多种扩展能力。经典网络独立于VPC，支持大带宽业务。支持在开通时或开通后按需增删网络类型和数量。提供多种VPC互通能力，可根据需求按需选择对等连接可实现同集群同用户或不同用户VPC之间的内网互通。 VPN可实现不同集群之间或与第三方云、本地数据中心互联互通。边边网络可实现不同VPC之间内网互联，不限集群和用户。提供裸金属，兼具虚拟机弹性能力和物理机高性能裸金属支持EIP和NAT网关等VPC能力，可与同集群云主机内网互通。支持使用公有镜像和自定义镜像自定义装机。提供多种监控指标告警。提供丰富的计算、存储、网络能力提供与中心云相同的能力，一致的使用体验。提供包括虚拟机、裸金属等计算能力，云硬盘、本地盘、本地裸盘等存储能力。提供VPC、公网IP、共享带宽、NAT网关、负载均衡、路由表、内网VIP、NAT64服务等网络能力。

来自：
帮助文档
智能边缘云
产品简介
产品功能
功能特性
用户使用流程
子账号使用流程前置条件子账号为IAM普通用户角色且已登录到一站式智算平台主账号使用流程若子账号为IAM管理员角色，则其拥有全部操作权限，操作流程和主账号别无二致，故角色为IAM管理员的子账号使用流程参见主账号使用流程章节；角色为IAM普通用户的子账号，使用流程如下：子账号的使用流程主要是为了进行任务作业，具体步骤如下：流程子任务说明详细指导数据集准备与处理创建基础数据集可上传基础数据集到ZOS或HPFS 基础数据集数据集准备与处理创建标注数据集创建标注数据集，可对数据集进行标注，并发布为新的数据集标注数据集数据集准备与处理数据清洗可以对数据数据处理镜像准备预置镜像预置镜像即平台预先设置的完整镜像，可直接用于创建任务时使用预置镜像镜像准备自定义镜像可以通过开发机自主制作镜像或通过天翼云容器镜像服务将镜像服务内的容器共享给一体化智算平台自定义镜像镜像准备他人分享镜像可将自己的镜像分享给他人使用镜像分享代码准备导入代码包将代码上传到平台我的代码包模型准备导入模型可将用户自己的模型或在平台训练、精调好的模型导入到平台进行版本管理、评估及部署我的模型 AI作业模型开发可通过启动和管理在线JupyterLab或VSCode集成开发环境在线编程进行模型开发开发机 AI作业模型训练创建自定义创建训练任务，支持单机和多机分布式训练训练任务 AI作业模型精调零代码快速创建和管理精调任务，提供全参微调和lora微调两种精调方式。基于平台的基础大模型，选择训练数据集和算力即可快速启动精调任务。模型精调 AI作业模型评估可对模型进行评估，自动评估打分，生成评估报告模型评估 AI作业模型压缩不减少模型效果的前提下压缩模型大小，进而提升模型在推理调用时的性能模型压缩 AI作业模型部署部署模型，提供推理服务模型服务 AI作业体验模型可以对预置模型和自己部署的模型进行体验体验中心综合管理工作空间管理查看工作空间相关信息，若是工作空间的管理员可以进行相关操作工作空间综合管理操作审计对平台操作事件进行跟踪操作审计

来自：
帮助文档
一站式智算服务平台（文档停止维护）
快速入门
用户使用流程
入门流程
本文介绍弹性文件服务入门相关流程。天翼云弹性文件服务提供按需扩展的高性能文件存储，可为云上多个弹性云主机提供大规模共享访问，具备高可用性和高数据持久性。下面我们以创建文件系统、挂载文件系统到数据读写为例介绍弹性文件服务的整体入门流程，具体流程见下图： 1. 首先进行准备工作，注册天翼云，确保账户余额，具体流程参见准备工作。 2. 设置天翼云弹性文件服务控制台所给出的配置项，包括存储类型、存储协议等信息，具体步骤请参见创建文件系统。 3. 创建好的文件系统需要挂载至云主机或物理机上使用，具体挂载步骤参见挂载文件系统。 4. 文件系统挂载完成后，您可以为文件系统配置监控告警规则，监控带宽、IOPS等数据，赋能业务，配置参考创建告警规则和开启一键告警。 5. 您可以将本地或其他存储设备上的数据迁移至文件系统共享与管理。具体步骤可参考NAS文件系统之间的迁移。 6. 您可以像访问本地数据一样读写文件系统中存储的数据。

来自：
帮助文档
弹性文件服务 SFS
快速入门
入门流程
常见问题
使用RDS要注意些什么 1、实例的操作系统，对用户都不可见，这意味着，只允许用户应用程序访问数据库对应的IP地址和端口。 2、对象存储服务（Object Storage Service，简称OBS）上的备份文件以及关系型数据库服务使用的弹性云服务器（Elastic Cloud Server，简称ECS），都对用户不可见，它们只对关系型数据库服务的后台管理系统可见。 3、申请RDS后，您还需要做什么。申请关系型数据库实例后，您不需要进行数据库的基础运维（比如高可用、安全补丁等），但是您还需要重点关注以下事情： 4、关系型数据库实例的CPU、IOPS、空间是否足够，如果不够需要变更规格或者扩容。 5、关系型数据库实例是否存在性能问题，是否有大量的慢SQL，SQL语句是否需要优化，是否有多余的索引或者缺失的索引等。什么是RDS实例可用性关系型数据库实例可用性的计算公式：实例可用性（1–故障时间/服务总时间）×100% 可以通过创建模板的方式创建实例吗目前不支持实例模板。 RDS与其他数据库解决方案间的差异功能 RDS 自购服务器搭建数据库服务服务可用性请参见《弹性云服务器用户指南》。需自行保障，自行搭建主从复制，自建RAID等。数据可靠性请参见《云硬盘用户指南》。需自行保障，自行搭建主从复制，自建RAID等。系统安全性防DDoS，及时修复各种数据库安全漏洞。自行部署，价格高昂；自行修复数据库安全漏洞。数据库备份自动备份。自行实现，但需要寻找备份存放空间以及定期验证备份是否可恢复。软硬件投入无软硬件投入，按需付费。数据库服务器成本相对较高。系统托管无托管费用。托管费用比较高。维护成本无需运维。需招聘专职DBA来维护，花费大量人力成本。部署扩容即时开通，快速部署，扩容，按需开通。需硬件采购、机房托管、部署机器等工作，周期较长。资源利用率按实际结算，利用率高。考虑峰值，资源利用率很低。 RDS实例是否会受其他用户实例的影响关系型数据库实例不会受其他用户实例影响，因为每个用户的关系型数据库实例与其他用户的实例是相互独立的，并且有资源隔离，互不影响。关系型数据库支持跨AZ高可用吗 RDS支持跨AZ高可用。当用户购买实例的时候，选择主备，可以选择主可用区和备可用区不在同一个可用区（AZ）。导出SQL查询结果到Excel出现乱码编码导致出现乱码，默认是utf8，需要将默认编码转换为Unicode。为何使用了RDS后网站登录较慢推荐您做如下两个处理：通过关系型数据库服务的管理控制台查看关系型数据库实例的性能情况。与应用程序有很大关系，使用命令查看当前数据库连接状态，比较本地数据库和关系型数据库的差异。云数据库如何进行主备切换关系型数据库（Relational Database Service，简称RDS）服务提供高可用类型，推荐您选择主备模式。故障切换也叫计划外的切换。当主机出现故障时，系统会在1～5分钟内自动切换到备机，主备实例的连接IP不变，整个过程无需人工干预。切换过程中不可访问，需要您设置好程序跟关系型数据库服务的自动重连，避免因为切换导致服务不可用。手动切换也叫计划内的切换。当实例运行正常时，用户可以自主手动触发主备切换，以满足业务需求。步骤 1登录管理控制台。步骤 2单击管理控制台左上角的，选择区域和项目。步骤 3选择“数据库 > 关系型数据库”。进入关系型数据库信息页面。步骤 4在“实例管理”页面，选择指定的主备实例，单击实例名称，进入实例的“基本信息”页面。步骤 5在“基本信息”页面中“数据库信息”模块的“实例类型”处，单击“主备切换”。您也可以在“基本信息”页面，单击“实例拓扑图”模块的。进行主备切换。主备切换可能会造成几秒或几分钟的服务闪断（闪断时间与复制时延有关），并有可能在主备同步时延过大的情况下，导致少量数据丢失。主备切换后，请注意对业务进行预热，避免业务高峰期出现阻塞。在“主备切换”弹框，单击“是”进行主备实例的切换。在“复制状态”为“正常”的情况下，复制时延大于300s，主备切换任务无法下发。主备切换成功后，单击“返回实例列表”，用户可以在“实例管理”页面对其进行查看和管理。切换过程中，状态显示为“主备切换中”。在实例列表的右上角，单击刷新列表，可查看到主备切换完成后，实例状态显示为“正常”。多台弹性云服务器是否可以使用同一个RDS数据库在数据库的压力承载范围内，多台弹性云服务器是可以使用同一个关系型数据库来支撑业务的。 RDS主备实例是否可以在一个可用区可用区指在同一区域下，电力、网络隔离的物理区域，可用区之间内网互通，不同可用区之间物理隔离。关系型数据库服务支持在同一个可用区内或者跨可用区部署数据库主备实例，备机的选择和主机可用区对应情况：相同（默认），主机和备机会部署在同一个可用区。不同，主机和备机会部署在不同的可用区，以提供不同可用区之间的故障转移能力和高可用性。

来自：
帮助文档
专属云（关系型数据库MySQL）
常见问题
常见问题
非天翼云用户数据迁移至弹性文件服务
本文介绍非天翼云用户数据如何迁移至云上弹性文件服务。应用场景在第三方云厂商存储大量数据的用户，如果想要将数据迁移至天翼云弹性文件服务，若使用传统的方法，需要先将存储在第三方云厂商上的数据下载到本地，再手动将数据上传到弹性文件服务，整个过程耗时又耗力，容易存在漏传、误传等问题。本文推荐您配置一个弹性云主机实例挂载文件系统作为数据传输的中转节点，然后通过迁移工具迁移数据至天翼云弹性文件服务，迁移工具可以选择SFTP客户端。仅需简单配置，即可把数据从第三方云厂商轻松、平滑地迁移至SFS。工具介绍本实践以FileZilla作为SFTP客户端作为指导示例。迁移工具特点应用场景 SFTP客户端支持众多操作系统平台，提供图形化操作界面。少量文件需要一次性上传至NFS文件系统。将NFS文件系统内的数据下载到本地。前提条件具备一个NFS协议弹性文件系统，且务必确认文件系统容量高于待迁移的数据总量。若此时未购买弹性文件服务，则需新购。具备一台与文件系统在同一VPC网络下的Linux弹性云主机，上传下载文件数据需要占用弹性云主机公网带宽，因此需要为弹性云主机配置弹性IP。准备工作下载安装迁移客户端工具，根据页面提示安装即可。文件系统为接收数据的目标文件系统，应根据实际需求选择容量规格，具体操作参考创建文件系统。本次操作实践中，需要创建弹性云主机作为非天翼云数据迁移至天翼云弹性文件服务的中转节点。建议配置如下：说明本操作中的云主机仅作为数据迁移的“中转站”，而非用于业务实际使用，为节省成本，建议订购按量付费的弹性云主机和弹性IP进行数据中转，计费说明参见高规格高带宽的云主机迁移速率更快，相应的费用也略高，请根据实际情况酌情选择。整体迁移速率同时受文件系统性能影响，详见参数说明付费方式按量付费。规格通用型。高规格的云主机迁移速率较快，例如4C8G的迁移速率大于1C1G的迁移速率，根据实际情况选择即可。镜像 CentOS 7.8 弹性IP 自动分配 IP版本 IPv4 带宽 5M。高带宽的迁移速率较快，例如10M的迁移速率大于5M的迁移速率，根据实际情况选择即可。登录方式密码>立即创建

来自：
帮助文档
弹性文件服务 SFS
用户指南
数据迁移
非天翼云用户数据迁移至弹性文件服务
使用数据库安全服务
建议购买数据库的同时，购买对应的数据库安全服务。数据库安全服务（Database Security Service，DBSS）是一个智能的数据库安全服务，基于机器学习机制和大数据分析技术，提供数据库审计，SQL注入攻击检测，风险操作识别等功能，保障云上数据库的安全。建议使用DBSS来提供扩展的数据安全能力，详情请参考数据库安全服务。优势助力企业满足等保合规要求。满足等保测评数据库审计需求。满足国内外安全法案合规需求，提供满足数据安全标准（例如SarbanesOxley）的合规报告。支持备份和恢复数据库审计日志，满足审计数据保存期限要求。支持风险分布、会话统计、会话分布、SQL分布的实时监控能力。提供风险行为和攻击行为实时告警能力，及时响应数据库攻击。帮助您对内部违规和不正当操作进行定位追责，保障数据资产安全。数据库安全审计采用数据库旁路部署方式，在不影响用户业务的提前下，可以对数据库进行灵活的审计。基于数据库风险操作，监视数据库登录、操作类型（数据定义、数据操作和数据控制）和操作对象，有效对数据库进行审计。从风险、会话、SQL注入等多个维度进行分析，帮助您及时了解数据库状况。提供审计报表模板库，可以生成日报、周报或月报审计报表（可设置报表生成频率）。同时，支持发送报表生成的实时告警通知，帮助您及时获取审计报表。

来自：
帮助文档
关系数据库MySQL版
用户指南
安全与加密
使用数据库安全服务
云迁移与其他服务的关系
云迁移服务CMS可与多种产品搭配使用，本节为您介绍云迁移与其他服务的关系。云迁移与其他服务的关系如图所示云迁移与其他服务的关系如表所示服务名称云迁移与其他服务之间的关系相关内容弹性云主机利用云迁移服务，将源端服务器系统、应用及文件迁移至天翼云弹性云主机。详见弹性云主机文档关系数据库MySQL版利用云迁移服务，将源端数据库数据迁移至天翼云数据库。详见关系数据库MySQL版文档对象存储利用云迁移服务，将源端对象存储数据迁移至天翼云对象存储。详见对象存储文档弹性IP 弹性IP为云迁移服务提供网络服务。详见弹性IP文档云硬盘云硬盘为云迁移服务提供存储服务。详见云硬盘文档

来自：
帮助文档
云迁移服务CMS
产品简介
云迁移与其他服务的关系
使用限制
功能使用限制 TaurusDB访问如果TaurusDB数据库实例没开通公网访问，则该实例必须与弹性云主机在同一个虚拟私有云内才能访问。弹性云主机必须处于目标TaurusDB数据库实例所属安全组允许访问的范围内。如果TaurusDB数据库实例与弹性云主机处于不同的安全组，系统默认不能访问。需要在TaurusDB数据库的安全组添加一条“入”的访问规则。“入”规则开放TCP协议，使用数据库实例的默认端口。 TaurusDB数据库实例的默认端口：主备版默认端口为3306，需用户手动修改端口号后，ECS或外网才能访问其他端口。具体操作请参见数据库的root权限创建实例页面只提供管理员root用户权限（仅限主备版）。修改数据库参数设置大部分数据库参数可以通过控制台进行修改。数据迁移使用mysqldump迁移TaurusDB数据。重启TaurusDB实例无法通过命令行重启，必须通过TaurusDB的管理控制台重启实例。查看TaurusDB备份 TaurusDB数据库实例在对象存储服务上的备份文件，对用户不可见。

来自：
帮助文档
云数据库TaurusDB
产品介绍
使用限制
ALM-18018 NodeManager堆内存使用率超过阈值
本章节主要介绍ALM18018 NodeManager堆内存使用率超过阈值的告警。告警解释系统每30秒周期性检测Yarn服务堆内存使用状态，当检测到NodeManager实例堆内存使用率超出阈值（最大内存的95%）时产生该告警。堆内存使用率小于阈值时，告警恢复。告警属性告警ID 告警级别是否自动清除 18018 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 NodeManager堆内存使用率过高，会影响Yarn任务提交和运行的性能，甚至可能会造成内存溢出导致Yarn服务崩溃。可能原因该节点NodeManager实例堆内存使用率过大，或配置的堆内存不合理，导致使用率超过阈值。处理步骤检查堆内存使用率 1.在FusionInsight Manager首页，选择“运维 > 告警 > 告警 > ALM18018 NodeManager堆内存使用率超过阈值 > 定位信息”。查看告警上报的实例的IP地址。 2.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例 > NodeManager（对应上报告警实例IP地址）”，单击图表区域右上角的下拉菜单，选择“定制 > 资源”，勾选“NodeManager内存使用率”。查看堆内存使用情况。 3.查看NodeManager使用的堆内存是否已达到NodeManager设定的最大堆内存的95%(默认阈值)。是，执行步骤4。否，执行步骤6。 4.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置 > NodeManager > 系统”。将“GCOPTS”参数的值根据实际情况调大。保存配置，并重启NodeManager实例。说明集群中的NodeManager实例数量和NodeManager内存大小的对应关系参考如下：集群中的NodeManager实例数据达到100，NodeManager实例的JVM参数建议配置为：Xms2G Xmx4G XX:NewSize512M XX:MaxNewSize1G。集群中的NodeManager实例数据达到200，NodeManager实例的JVM参数建议配置为：Xms4G Xmx4G XX:NewSize512M XX:MaxNewSize1G。集群中的NodeManager实例数据达到500以上，NodeManager实例的JVM参数建议配置为：Xms8G Xmx8G XX:NewSize1G XX:MaxNewSize2G。 5.观察界面告警是否清除。是，处理完毕。否，执行步骤6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-18018 NodeManager堆内存使用率超过阈值
与其他云服务的关系
本章节主要介绍数据仓库服务与其他云服务的关系。与统一身份认证服务的关系数据仓库服务使用统一身份认证服务（Identity and Access Management，简称IAM）实现认证和鉴权功能。需要拥有DWS Administrator权限的用户才能完整使用数据仓库服务。如需开通该权限，请联系拥有Security Administrator权限的用户或者申请新的具有DWS Administrator权限的用户。拥有DWS Database Access权限的用户，可以基于IAM用户生成临时数据库用户凭证以连接DWS 集群数据库。与弹性云主机的关系数据仓库服务使用弹性云主机（Elastic Cloud Server，简称ECS）作为集群的节点，每个弹性云主机是集群中的一个节点。与虚拟私有云的关系数据仓库服务使用虚拟私有云（Virtual Private Cloud，简称VPC）为集群提供网络拓扑，实现多个不同集群互相隔离并控制访问。与对象存储服务的关系数据仓库服务使用对象存储服务（Object Storage Service，简称OBS）作为集群数据与外部数据互相转化的一个方法，实现安全、高可靠和低成本的存储需求。与MapReduce服务的关系数据仓库服务使用MapReduce服务（MapReduce Service，简称MRS）将数据从MRS迁移到DWS 集群，实现海量数据通过Hadoop处理后使用DWS 进行分析查询。与云数据迁移的关系您可使用云数据迁移（Cloud Data Migration，简称CDM）实现多种数据源数据到DWS 的迁移。与数据复制服务的关系您可使用数据复制服务（Data Replication Service，简称DRS）将流式数据实时同步至DWS。

来自：
帮助文档
数据仓库服务
产品简介
与其他云服务的关系
基础数据集
创建数据集 1. 创建普通存储数据集：登录智算服务控制台，单击左侧菜单栏的“智算资产”>“我的数据集”菜单项进入我的数据集模块，点击“基础数据集“菜单，选择“普通/智算存储”，点击【+创建普通/智算存储数据集】，进入创建页面 2. 填写相关配置并提交。基础数据集创建目前仅支持使用自有存储，创建完成后，自动为您创建拼接此数据后缀的容器内挂载路径。类型字段说明存储基本信息数据集名称数据集名称，不超过25个字符存储基本信息描述数据集描述信息权限配置可见范围读写权限范围，支持设置仅文件所有者可见、指定工作空间内的算法开发角色可见两种权限策略存储位置自有ZOS存储您租户账号下的自有ZOS存储，若您还未创建，您可点击【去创建】跳转到存储控制台进行创建。存储桶：选择您自有的ZOS存储桶名称；数据源路径：您对应存储的具体的目录路径，您可根据提示示例进行填写，平台会对您填写路径的存在性进行校验，若校验不通过会进行提示，并禁止提交。对于管理员用户，此项选填；对于普通子用户，此项必填。存储位置自有HPFS存储您租户账号下的自有HPFS存储，若您还未创建，您可点击【去创建】跳转到存储控制台进行创建。 HPFS名称：选择您自有的HPFS名称；数据源路径：您对应存储的具体的目录路径，您可根据提示示例进行填写，平台会对您填写路径的存在性进行校验，若校验不通过会进行提示，并禁止提交。对于管理员用户，此项选填；对于普通子用户，此项必填。存储位置自有其他存储您租户账号下的自有其他存储。数据源路径：您对应存储的具体的目录路径，您可根据提示示例进行填写，此项必填。特殊配置设为保密数据集仅存储委托的自有ZOS与自有HPFS类型支持该功能。对于某些行业客户，在大模型训练时会涉及到保密数据的处理问题，比如需要避免用户下载到本地造成数据泄漏，针对这类问题，平台推出了特色的数据保密功能，以应对用户下载或拷贝保密数据的行为。相关配置仅对管理员用户开放，且此功能会增加操作复杂度和资源占用，建议您只在需要的时候使用。开启此按钮后，可将本数据集设置为保密数据集。开启保密后，此数据集将：1）仅支持读操作，禁止写操作，运行后的输出将单独写入到保密输出路径；2）数据挂载到容器时禁止访问外网。特殊配置设为保密数据集的输出路径若您已设置保密数据集，您还需再创建一个保密输出数据集，专门用于存储保密数据集的输出，并谨慎设置相关权限：1）若您使用了自有存储，建议您只给自己或管理者读写权限（需前往对应存储控制台设置），即您需要确保这是由您完全可控的存储；2）此数据集的可见范围（在本页面的权限配置设置），建议您只对需要的用户设置。特殊配置云审计您设置好保密输出路径后，会自动弹出云审计设置，此设置对使用了对应保密输出数据集的任务生效。开启云审计后，使用此保密输出数据集的任务在容器内的命令操作将会被记录并发送到云审计，并标识拷贝等高危操作。特殊配置审计频率您开启云审计后，会弹出审计频率设置。审计频率是指审计上报的时间间隔，支持输入11440的整数。如果您设置的时间间隔太短，频繁扫描将会增加损耗，如时间太长，上报的事件信息较密集，建议您根据业务实际情况填写合适的时间。

来自：
帮助文档
训推服务
用户指南
智算资产
我的数据集
基础数据集
选择合适的节点数据盘大小
约束与限制仅1.19及以上集群支持调小容器运行时和Kubelet组件使用的数据盘容量。调整数据盘大小功能只支持云硬盘，不支持本地盘（本地盘仅在节点规格为“磁盘增强型”或“超高I/O型”时可选）。如何选择合适的数据盘在选择合适的数据盘大小时，需要结合以下考虑综合计算：在拉取镜像过程中，会先从镜像仓库中下载镜像tar包然后解压，最后删除tar包保留镜像文件。在tar包的解压过程中，tar包和解压出来的镜像文件会同时存在，占用额外的存储空间，需要在计算所需的数据盘大小时额外注意。在集群创建过程中，节点上可能会部署必装插件（如Everest插件、coredns插件等），这些插件会占用一定的空间，在计算数据盘大小时，需要为其预留大约2G的空间。在应用运行过程中会产生日志，占用一定的空间，为保证业务正常运行，需要为每个Pod预留大约1G的空间。 OverlayFS类型 OverlayFS类型节点上的容器引擎和容器镜像空间默认占数据盘空间的90%（建议维持此值），这些容量全部用于dockersys分区，计算公式如下：容器引擎和容器镜像空间：默认占数据盘空间的90%，其空间大小数据盘空间 90% dockersys分区（/var/lib/docker路径）：容器引擎和容器镜像空间（默认占90%）都在/var/lib/docker目录下，其空间大小数据盘空间 90% Kubelet组件和EmptyDir临时存储：占数据盘空间的10%，其空间大小数据盘空间 10% 在OverlayFS类型的节点上，由于拉取镜像时，下载tar包后会存在解压过程，该过程中tar包和解压出来的镜像文件会同时存在于dockersys空间，会占用约2倍的镜像实际容量大小，等待解压完成后tar包会被删除。因此，在实际镜像拉取过程中，除去系统插件镜像占用的空间后，需要保证dockersys分区的剩余空间大于2倍的镜像实际容量。为保证容器能够正常运行，还需要在dockersys分区预留出相应的Pod容器空间，用于存放容器日志等相关文件。因此在选择合适的数据盘时，需满足以下公式： dockersys分区容量 > 2镜像实际总容量 + 系统插件镜像总容量（约2G） + 容器数量单个容器空间（每个容器需预留约1G日志空间）说明当容器日志选择默认的json.log形式输出时，会占用dockersys分区，若容器日志单独设置持久化存储，则不会占用dockersys空间，请根据实际情况估算单个容器空间。例如：假设节点的存储类型是OverlayFS，节点数据盘大小为20G。根据上述计算公式，默认的容器引擎和容器镜像空间比例为90%，则dockersys分区盘占用：20G90% 18G，且在创建集群时集群必装插件可能会占用2G左右的空间。倘若此时您需要部署10G的镜像tar包，但是由于解压tar包时大约会占用20G的dockersys空间，再加上必装插件占用的空间，超出了dockersys剩余的空间大小，极有可能导致镜像拉取失败。

来自：
帮助文档
云容器引擎
最佳实践
集群
选择合适的节点数据盘大小
概念类问题
本章节列举了使用云主机备份过程中的概念类问题,以及相对应的解答。备份和镜像的区别是什么？云主机备份和镜像服务有很多功能交融的地方，有时需要搭配一起使用。镜像有时也可用来备份云服务器运行环境，作为备份来使用。云主机备份和镜像服务区别主要有以下几点：对比维度云主机备份镜像服务概念备份是将云主机或者云硬盘某一时间节点的状态、配置和数据信息保存下来，以供故障时进行恢复，其目的是为了保证数据安全，提升高可用性。镜像相当于云服务器的“装机盘”，它提供了启动云服务器所需的所有信息，其目的是为了创建云服务器，批量部署软件环境。系统盘镜像包含运行业务所需的操作系统、应用软件，数据盘包含业务数据。整机镜像是系统盘镜像和数据盘镜像的总和。使用方式数据存储位置：与服务器/磁盘数据分开存储，存储在对象存储（OBS）中。如果将创建备份的云硬盘删除，对应的备份不会被同时删除。操作对象：保存云服务器/磁盘指定时刻的数据，可以设置自动备份和过期自动删除。用途：备份可以恢复数据至原服务器/磁盘中，也可以直接创建新的磁盘或整机镜像。是否可以导出至本地：否。数据存储位置：与服务器/磁盘数据分开存储，存储在对象存储（OBS）中。如果将创建镜像的服务器/磁盘删除，对应的镜像不会被同时删除。操作对象：可以将服务器的系统盘和数据盘制作为私有镜像，也可以通过外部镜像文件制作私有镜像。用途：系统盘镜像或整机镜像可以创建新的服务器，数据盘镜像可以创建新的磁盘，实现业务迁移。应用场景数据备份和恢复服务器上云或云上迁移部署特定软件环境批量部署软件环境服务器运行环境备份优势支持自动备份，可以定时定量保留服务器/磁盘某一时间节点的数据可以备份系统盘。可以将本地或者其他云平台的服务器数据盘镜像文件导入至镜像服务中。导入后，可使用该镜像创建新的云硬盘。云主机备份和镜像服务的联系主要有以下几点：通过云主机备份可以创建整机镜像。为云主机创建整机镜像时，需要先对目标云主机进行备份。使用备份创建镜像时，镜像会对备份进行压缩，所以产生的镜像可能会比备份小。

来自：
帮助文档
云主机备份 CSBS
常见问题
概念类问题
与其他云服务关系
本文帮助您更快了解云主机备份产品与其他云服务的关联关系。云主机备份通过与其他云服务的关联，能够提供全面的数据保护和恢复解决方案，以满足用户对数据安全和可靠性的需求。弹性云主机云主机备份提供对弹性云主机的备份保护服务，并支持利用备份数据恢复弹性云主机的数据，以便于在弹性云主机数据丢失或损坏时自助快速恢复数据。对象存储服务云主机备份通过云主机与对象存储服务的结合，将云主机的数据备份到对象存储中，高度保障用户的备份数据安全。

来自：
帮助文档
云主机备份 CSBS
产品简介
与其他云服务关系
与其他服务依赖关系
本文主要介绍与其他服务依赖关系相关服务交互功能弹性云主机云数据库RDS服务配合弹性云主机（Elastic Cloud Server，简称ECS）一起使用，通过内网连接云数据库RDS可以有效地降低应用响应时间、节省公网流量费用。虚拟私有云对您的云数据库RDS实例进行网络隔离和访问控制。对象存储服务存储云数据库RDS实例的自动和手动备份数据。云监控服务云监控服务是一个开放性的监控平台，帮助用户实时监测云数据库RDS资源的动态。云监控服务提供多种告警方式以保证及时预警，为您的服务正常运行保驾护航。分布式缓存服务分布式缓存服务通过将热点数据放入缓存，加快用户端的访问速度，提升用户体验。分布式关系型数据库对于云数据库 RDS for MySQL，使用分布式关系型数据库服务，后端对接多个数据库实例，实现分布式数据库的透明访问。数据库复制使用数据库复制服务，实现数据库平滑迁移上云。

来自：
帮助文档
关系数据库MySQL版
产品简介
与其他服务依赖关系
关系型数据库RDS支持的事件列表
关系型数据库RDS支持的事件列表资源异常事件事件名称事件ID 事件级别事件说明处理建议事件影响创建实例业务失败 createInstanceFailed 重要创建实例失败产生的事件，一般是磁盘个数，配额大小不足，底层资源耗尽导致。检查磁盘个数、配额大小，释放资源后重新创建。无法创建数据库实例。实例全量备份失败 fullBackupFailed 重要单次全量备份失败产生的事件，不影响以前成功备份的文件，但会对“恢复到指定时间点”的功能有一些影响，导致“恢复到指定时间点”时增量备份的恢复时间延长。重新执行一次手工备份。备份失败。主备切换异常 activeStandBySwitchFailed 重要主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务，短时间内会恢复到原主机继续提供服务。检查应用和数据库之间的连接是否重新建立了连接。无复制状态异常 abnormalReplicationStatus 重要出现”复制状态异常“事件通常有两种情况：1、主机与备机或只读实例之间复制时延太大（一般在写入大量数据或执行大事务的时候出现），在业务高峰期容易出现阻塞。2、主机与备机或只读实例之间的网络中断，导致主机与备机或只读实例复制异常。提交工单。但不会导致原来单实例的读写中断，客户的应用是无感知的。复制状态异常已恢复 replicationStatusRecovered 重要即复制时延已回到正常范围内，或者主备之间的网络通信恢复。不需要处理。无实例运行状态异常 faultyDBInstance 重要由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件，属于关键告警事件。检查是否有设置自动备份策略，并且提交工单。可能导致数据库服务不可用。实例运行状态异常已恢复 DBInstanceRecovered 重要针对灾难性的故障，RDS有高可用工具会自动进行备机重建，重建完成之后即会上报本事件。不需要处理。无单实例转主备实例失败 singleToHaFailed 重要创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件，一般是由于备节点所在数据中心资源不足导致。提交工单。 “单实例转主备实例失败”不会导致原来单实例的读写中断，客户的应用是无感知的。数据库进程重新启动 DatabaseProcessRestarted 重要一般是内存不足、负载过高导致数据库进程停止通过云监控的数据，查看是否有内存飙升、cpu长期过高、磁盘满使用率不足等的情况，可以选择提升CPU内存规格或者优化业务逻辑进程异常退出的时候，业务中断。RDS服务会自动拉起进程，尝试恢复业务。实例磁盘满 instanceDiskFull 重要一般是由于数据空间占用过大导致。对实例进行扩容操作。实例由于磁盘空间满将会变成只读实例，数据库不可进行写入操作。实例磁盘满已恢复 instanceDiskFullRecovered 重要实例磁盘状态恢复正常。不需要处理。实例解除只读状态，恢复写操作。 kafka连接失败 kafkaConnectionFailed 重要一般是由于网络波动或kafka服务端出现异常等原因导致。检查业务是否收到影响。无。

来自：
帮助文档
云监控服务
用户指南
事件监控
事件监控支持的事件说明
关系型数据库RDS支持的事件列表
ALM-13008 ZooKeeper Znode数量使用率超出阈值
本章节主要介绍 ALM13008 ZooKeeper Znode数量使用率超出阈值。告警解释系统每小时周期性检测ZooKeeper服务数据目录下二级znode状态，当检测到二级znode的总数量超过阈值时产生该告警。告警属性告警ID 告警级别是否自动清除 13008 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。服务目录产生告警的目录名称。角色名产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响向ZooKeeper数据目录空间写入大量数据，导致ZooKeeper无法对外正常提供服务。可能原因往ZooKeeper数据目录空间写入大量数据。自定义阈值设置不合理。处理步骤检查告警目录是否写入大量数据 1. 登录FusionInsight Manager，选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper”，单击“资源”，在精细化监控“资源使用（按二级Znode）”中单击“按Znode数量”，查看监控中是否有顶级Znode被写入较多数据。是，执行步骤2。否，执行步骤4。 2. 登录FusionInsight Manager，选择“运维 > 告警 > 告警”，打开告警“ALM13008 ZooKeeper Znode数量使用率超出阈值”左侧下拉菜单，在“定位信息”的“服务目录”中获取告警的Znode路径。 3. 以集群用户登录ZooKeeper客户端，删除告警对应Znode下的无用数据。 4. 登录FusionInsight Manager，选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 配置 > 全部配置”，搜索“max.znode.count”，即ZooKeeper目录的数量配额的最大值，告警阈值为该值的80%，修改调大该配置项，单击“保存”，重启服务使配置生效。 5. 观察界面告警是否清除。是，处理完毕。否，执行步骤 6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-13008 ZooKeeper Znode数量使用率超出阈值
操作类
如何实现应用分组告警？当多个资源需要用到同一套告警规则时，可以通过创建告警模板，对同一分组下的监控对象统一设置告警策略，实现分组告警规则的设置。具体操作步骤请参见通过告警模板设置应用分组的告警规则。为什么购买了云产品，在云监控服务找不到对应产品监控？购买云服务产品后，如果在云监控服务无法找到对应产品监控菜单，可能是以下原因： ● 购买云服务资源后，首先确认该服务是否已对接云监控服务。目前支持产品云主机、云硬盘、裸金属、弹性IP、共享带宽、负载均衡、对象存储、弹性文件。 ● 因资源池类型差异，部分资源池云监控产品功能由开关配置控制，建议联系对应客户经理或人工客服反馈。为什么在云监控服务看不到监控数据？当出现以下情况时，有可能在云监控服务中看不到监控数据： ● 购买云服务资源后，首先确认该服务是否已对接云监控服务。 ● 已对接云监控的服务，由于各个服务采集上报监控数据的频率各有不同，请耐心等待一段时间。 ● 弹性云服务器或裸金属服务器关机后则无法查看实时监控数据。 ● 云硬盘无监控数据，可能为云硬盘没有挂载给弹性云服务器或裸金属服务器。 ● 弹性负载均衡未绑定后端服务器或者后端服务器全部关机。

来自：
帮助文档
云监控服务
常见问题
操作类
ALM-18010 ResourceManager进程垃圾回收（GC）时间超过阈值
本章节主要介绍ALM18010 ResourceManager进程垃圾回收（GC）时间超过阈值的告警。告警解释系统每60秒周期性检测ResourceManager进程的垃圾回收（GC）占用时间，当检测到ResourceManager进程的垃圾回收（GC）时间超出阈值（默认12秒）时，产生该告警。垃圾回收（GC）时间小于阈值时，告警恢复。告警属性告警ID 告警级别是否自动清除 18010 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 ResourceManager进程的垃圾回收时间过长，可能影响该ResourceManager进程正常提供服务。可能原因该节点ResourceManager实例堆内存使用率过大，或配置的堆内存不合理，导致进程GC频繁。处理步骤检查GC时间 1.在FusionInsight Manager首页，选择“运维 > 告警 > 告警 > ALM18010 ResourceManager进程垃圾回收（GC）时间超过阈值 > 定位信息”。查看告警上报的实例的IP地址。 2.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例 > ResourceManager（对应上报告警实例IP地址）”，单击图表区域右上角的下拉菜单，选择“定制 > 垃圾回收”，勾选“ResourceManager垃圾回收（GC）时间”。查看ResourceManager每分钟的垃圾回收时间统计情况。 3.查看ResourceManager每分钟的垃圾回收时间统计值是否大于告警阈值（默认12秒）。是，执行步骤4。否，执行步骤7。 4.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置 > ResourceManager > 系统”。将“GCOPTS”参数根据实际情况调大。说明集群中的NodeManager实例数量和ResourceManager内存大小的对应关系参考如下：集群中的NodeManager实例数据达到100，ResourceManager实例的JVM参数建议配置为：Xms4G Xmx4G XX:NewSize512M XX:MaxNewSize1G。集群中的NodeManager实例数据达到200，ResourceManager实例的JVM参数建议配置为：Xms6G Xmx6G XX:NewSize512M XX:MaxNewSize1G。集群中的NodeManager实例数据达到500，ResourceManager实例的JVM参数建议配置为：Xms10G Xmx10G XX:NewSize1G XX:MaxNewSize2G。集群中的NodeManager实例数据达到1000，ResourceManager实例的JVM参数建议配置为：Xms20G Xmx20G XX:NewSize1G XX:MaxNewSize2G。集群中的NodeManager实例数据达到2000，ResourceManager实例的JVM参数建议配置为：Xms40G Xmx40G XX:NewSize2G XX:MaxNewSize4G。集群中的NodeManager实例数据达到3000，ResourceManager实例的JVM参数建议配置为：Xms60G Xmx60G XX:NewSize2G XX:MaxNewSize4G。集群中的NodeManager实例数据达到4000，ResourceManager实例的JVM参数建议配置为：Xms80G Xmx80G XX:NewSize2G XX:MaxNewSize4G。集群中的NodeManager实例 5.保存配置，并重启该ResourceManager实例。 6.观察界面告警是否清除。是，处理完毕。否，执行步骤7。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-18010 ResourceManager进程垃圾回收（GC）时间超过阈值
ALM-18011 NodeManager进程垃圾回收（GC）时间超过阈值
本章节主要介绍ALM18011 NodeManager进程垃圾回收（GC）时间超过的告警。告警解释系统每60秒周期性检测NodeManager进程的垃圾回收（GC）占用时间，当检测到NodeManager进程的垃圾回收（GC）时间超出阈值（默认12秒）时，产生该告警。垃圾回收（GC）时间小于阈值时，告警恢复。告警属性告警ID 告警级别是否自动清除 18011 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 NodeManager进程的垃圾回收时间过长，可能影响该NodeManager进程正常提供服务。可能原因该NodeManager节点实例堆内存使用率过大，或配置的堆内存不合理，导致进程GC频繁。处理步骤检查GC时间 1.在FusionInsight Manager首页，选择“运维 > 告警 > 告警 > ALM18011 NodeManager进程垃圾回收（GC）时间超过阈值 > 定位信息”。查看告警上报的实例的IP地址。 2.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例 > NodeManager（对应上报告警实例IP地址）”，单击图表区域右上角的下拉菜单，选择“定制 > 垃圾回收”，勾选“NodeManager垃圾回收（GC）时间”。查看NodeManager每分钟的垃圾回收时间统计情况。 3.查看NodeManager每分钟的垃圾回收时间统计值是否大于告警阈值（默认12秒）。是，执行步骤4。否，执行步骤7。 4.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置 > NodeManager > 系统”。将“GCOPTS”参数根据实际情况调大。说明集群中的NodeManager实例数量和NodeManager内存大小的对应关系参考如下：集群中的NodeManager实例数据达到100，NodeManager实例的JVM参数建议配置为：Xms2G Xmx4G XX:NewSize512M XX:MaxNewSize1G。集群中的NodeManager实例数据达到200，NodeManager实例的JVM参数建议配置为：Xms4G Xmx4G XX:NewSize512M XX:MaxNewSize1G。集群中的NodeManager实例数据达到500以上，NodeManager实例的JVM参数建议配置为：Xms8G Xmx8G XX:NewSize1G XX:MaxNewSize2G。 5.保存配置，并重启NodeManager实例。 6.观察界面告警是否清除。是，处理完毕。否，执行步骤7。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-18011 NodeManager进程垃圾回收（GC）时间超过阈值
名词解释
名词说明短信服务短信服务（Short Message Service）是天翼云为用户提供的一种通信服务。支持国内快速发送验证码、短信通知。国内短信支持三网合一专属通道，与工信部携号转网平台实时互联。电信级运维保障，实时监控自动切换，到达率高达99%。国内短信是天翼云为个人和企业用户提供的纯文本短信发送服务，通过API、群发助手方式调用短信发送功能，将指定信息发送至手机号码，用于个人和企业向用户发送验证码、短信通知等短信。验证码是天翼云为个人和企业用户提供的验证码发送服务，国内短信验证码支持三网合一专属通道，秒级可达。适用于App或网站注册、安全登录、支付认证、身份认证、密码找回、账号绑定等应用场景。短信通知是天翼云为个人和企业用户提供的短信通知发送服务，支持通知短信，快速触达用户，适用于订单通知、支付通知、物流通知、会议通知、政府通知、生活服务类通知、跨境订单通知、跨境物流通知等应用场景。短信模板即具体发送的短信内容模板。短信模版支持验证码、短信通知；验证码和短信通知支持通过变量替换实现个性短信定制。短信签名是一种快捷、方便的个性化签名方式。当发送短信时，短信平台会根据设置，在短信内容里附加个性化签名，再发送给被叫手机号码。申请签名的企业用户需要上传相关企业资质证明，个人用户需要上传个人身份证明。

来自：
帮助文档
云通信-短信（文档停止维护）
产品介绍
名词解释
与其他云服务的关系
云服务备份CBR与其他云服务的关系如下文介绍。交互功能相关服务位置 ::: 云服务备份对弹性云主机中的云硬盘进行备份，支持将备份的数据恢复到弹性云主机的云硬盘中，以便于在弹性云主机数据丢失或损坏时自助快速恢复数据。同时支持将备份创建为镜像，以快速恢复业务运行环境。弹性云主机创建云主机备份云服务备份对弹性云主机中的云硬盘进行备份，支持将备份的数据恢复到弹性云主机的云硬盘中，以便于在弹性云主机数据丢失或损坏时自助快速恢复数据。同时支持将备份创建为镜像，以快速恢复业务运行环境。弹性云主机创建云硬盘备份云服务备份对弹性文件服务中的SFS Turbo文件系统进行备份，支持使用备份创建新的SFS Turbo文件系统，以便于在文件系统数据丢失或损坏时自助快速恢复数据。弹性文件服务创建SFS Turbo备份云服务备份对物理机中的云硬盘进行备份，同时支持将备份的数据恢复到物理机的云硬盘中，以便于在物理机数据丢失或损坏时自助快速恢复数据。物理机与弹性云主机备份、管理等操作均一致。物理机什么是云服务备份云服务备份对物理机中的云硬盘进行备份，同时支持将备份的数据恢复到物理机的云硬盘中，以便于在物理机数据丢失或损坏时自助快速恢复数据。物理机与弹性云主机备份、管理等操作均一致。物理机创建云主机备份云服务备份通过服务器与对象存储服务的结合，将服务器的数据备份到对象存储中，高度保障用户的备份数据安全。对象存储什么是云服务备份为云硬盘提供数据备份功能，同时，可以使用云硬盘备份创建新的云硬盘。云硬盘创建云硬盘备份云服务备份支持通过云审计服务对备份服务资源的操作进行记录，以便用户可以查询、审计和回溯。云审计审计 IAM是支撑企业级自助的云端资源管理系统，具有用户身份管理和访问控制的功能。统一身份认证用户权限当用户开通了云服务备份后，无需额外安装其他插件，即可在云监控查看对应存储库的性能指标，包括存储库使用率和存储库使用量。云监控监控指标说明

来自：
帮助文档
云服务备份
产品介绍
与其他云服务的关系
修改Topic
介绍分布式消息服务Kafka修改主题功能的操作内容。场景描述 Kafka修改主题的场景描述如下：数据分区调整：当数据负载不均衡或者需要重新分配数据分区时，可以通过修改主题来调整数据分区的数量和分布。管理员可以根据实际情况修改主题的配置，重新分配分区，以实现更好的负载均衡和性能优化。副本分配策略调整：Kafka的主题可以配置多个副本以实现数据冗余和高可用性。当需要调整副本的分配策略时，可以修改主题的配置，更改副本的分布方式，以满足不同的需求，如提高数据的可靠性或者减少网络传输的开销。数据保留策略变更：Kafka支持根据时间或者大小等条件来设置数据的保留策略。当需要修改主题的数据保留策略时，可以修改主题的配置，调整数据的保留时间或者保留的数据大小，以便根据实际需求来管理数据的存储和清理。操作步骤（1）登录管理控制台。（2）进入Kafka管理控制台。（3）在实例列表页在操作列，目标实例行点击“管理”。（4）点击“Topic管理”后，选择指定的Topic点击其右侧“编辑”按钮。（5）点击“编辑”后，在弹窗中修改具体参数，详见下表：Topic参数说明。表：Topic参数说明参数参数说明分区数您可以设置Topic的分区数，分区数越大消费的并发度越大。该参数设置为1时，消费消息时会按照先入先出的顺序进行消费。取值范围：1100，默认值：6 分区容量每个分区的数据量的最大值，超过这个值后前面生产的消息将会被删除，保证了数据不会无限上涨挤爆磁盘。是否同步刷盘同步刷盘即确保消息被写入磁盘才会被认定为生产成功，该参数可提高可靠性，但是会影响性能。消息保留时长当消息生存时间超过该时长后，将会被清理，可用于控制存储成本。最小同步副本数该参数使得消息必须写入设定值个数的副本后，才能被认定生产成功，该参数可提高可靠性，但是过大会影响性能，且必须不大于副本数。批处理消息最大值每个批次中最大允许的消息大小，这影响了每次请求中能包含的消息总量和大小。消息时间戳类型 CreateTime: 这是消息被生产者发送到Kafka时的时间戳，它表示消息创建的实际时间；LogAppendTime: 这是消息被Kafka日志接收并写入到日志文件时的时间戳，它表示消息写入 Kafka 的实际时间。描述 topic的描述字段，可用作标记和说明。

来自：
帮助文档
分布式消息服务Kafka
用户指南
Topic管理
修改Topic
日志查询
查询所有历史检测记录,支持多维度筛选与导出。日志查询功能记录了所有经由大模型安全护栏处理的检测请求，支持多维度筛选与数据导出，帮助管理员进行合规审计与问题溯源。数据保留说明：当前支持查询“最近7天”的数据，单次最多展示 5万条记录。如需保留更长时间的数据，请在使用过程中及时导出备份。日志列表字段说明字段名称说明服务名称检测服务类型： textinputcheck textoutputcheck imagesecuritycheck 检测内容被检测的文本内容或图片缩略图。风险类型命中的风险类别（如“政治敏感”、“宣扬暴力”等），通过则为空。建议动作系统建议的处置动作：放行（绿色）拦截（红色）命中内容触发风险的具体内容片段（部分场景可能为空）。访问来源请求来源标识（如“在线测试”或“API调用”）。请求时间该条检测请求的发生时间。操作单击“详情”，可查看该条日志的完整信息。筛选与检索支持以下筛选条件组合使用：服务名称筛选：下拉选择 textinputcheck、textoutputcheck 或 imagesecuritycheck，快速过滤特定检测类型的日志。建议动作筛选：按"放行"或"拦截"进行过滤，快速定位风险记录。时间范围筛选：选择起止时间，默认展示最近24小时的数据。

来自：
帮助文档
智算安全专区
用户指南
大模型安全护栏
日志查询
模型精调功能介绍
SFT（Supervised FineTuning）简介监督微调（Supervised FineTuning，SFT）是大模型训练流程中的关键环节，其目标是通过高质量的人工标注数据（通常为问答对，包含输入的prompt和预期输出的 response），将通用预训练大模型（如Llama、Qwen等）适配到特定的下游任务或专业领域，使其生成更符合人类期望且有一定偏好格式的输出。 SFT的必要条件何时需要启动SFT 当通过prompt工程，大模型也无法将用户所想看到的回答呈现出来（即指令跟随失败）时；当大模型生成内容存在事实错误或专业度不足时，比如某些领域的词汇未在预训练模型的前置知识里；当用户对大模型输出内容有格式要求时，比如某些专业领域（客服）需要格式化输出，而模型仍有部分回答不符合格式要求。 SFT的前期准备当用户确定要使用大模型SFT时，请确保已经做好了以下准备：用户已经使用prompt工程等方式，将基础模型的潜力发挥到极致，并且针对垂直领域的测试集，仍然存在一定数量的badcase，且数量是不可接受（一般业界定义专业领域知识测试准确率<75%即为不可接受）的；针对该垂直领域，用户已经标注了至少1K的高质量数据集。如何评判一个数据集是否是高质量数据集请见下一节。何为高质量数据集高质量数据集一般存在以下特征：针对某一领域，该数据集覆盖一定量的badcase或者与badcase特征相似的数据；该数据集有着多样的prompt类型（即提问方式非单一）以增加模型的泛化性；该数据集针对同类型prompt的回答方式统一或结构差异较小；该数据集不存在模棱两可的问题以及答案；该数据集不存在答案重复输出的数据；（如需要）该数据集会添加510%的通用数据以防止微调后的模型出现灾难性遗忘。

来自：
帮助文档
训推服务
用户指南
模型定制
模型精调
模型精调功能介绍

天翼云最新活动

云聚517 · 好价翼起拼

爆款云主机低至25.83元/年，参与拼团享更多优惠，拼成得额外优惠券

安全隔离版OpenClaw

OpenClaw云服务器专属“龙虾“套餐低至1.5折起

聚力AI赋能天翼云大模型专项

大模型特惠专区·Token Plan 轻享包低至9.9元起

青云志云端助力计划

一站式科研助手，海外资源安全访问平台，助力青年翼展宏图，平步青云

企业出海解决方案

助力您的业务扬帆出海，通达全球！

天翼云信创专区

“一云多芯、一云多态”,国产化软件全面适配，国产操作系统及硬件芯片支持丰富

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

天翼云最新活动

产品推荐

弹性云主机 ECS

物理机 DPS

天翼云CTyunOS系统

公共算力服务

星辰TokenHub运营服务平台

智算一体机

知识库问答

人脸属性识别

人脸比对

推荐文档

删除消费组

邀请参会方

天翼云最佳实践④：网络流量实时查看工具ifstat

域名解析