活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      镜像服务_相关内容
      • 混合集群网络
        场景二:云下Kubernetes集群容器网络模式为Overlay模式,或Underlay模式但Pod IP集群外不可访问 隧道网络模式相较平面网络模式,存在10%~20%的性能损失,一般用于集群规模较小且对网络性能要求不高的场景。场景开源组件模式包括: Flannel VXLan模式 Calico IPIP模式 Cilium VXLan模式 若云下Kubernetes集群的容器网络模式为隧道网络,则云上节点也可以复用该网络模式,只需保证云上节点能够拉取到容器网络插件所需容器镜像即可。
        来自:
        帮助文档
        分布式容器云平台 CCE One
        用户指南
        注册集群
        注册集群控制台
        节点管理
        节点池
        混合集群网络
      • 创建新库后是否会自动发起对新库的全量备份?
        本文介绍创建新库后是否会自动发起对新库的全量备份。 自动新库备份 用户在SQL Server控制台或通过SQL Server客户端创建新库后,平台的定时检测机制会扫描到新库,并自动对新库做一次全量备份。 新库自动全量备份是必要的,备份数据保证数据安全,另外对于主备实例该备份可用于搭建主从镜像。 数据备份列表中有时候能看到非备份时段的多个自动全量备份,备份名称为fullagent开头的备份即为新库自动全量备份。
        来自:
        帮助文档
        关系数据库SQL Server版
        常见问题
        备份/恢复
        创建新库后是否会自动发起对新库的全量备份?
      • 区域和可用区
        本节为您介绍天翼云区域和可用区的概念及关系。 区域 区域(region)是指物理的数据中心的地理区域。区域从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。 天翼云不同区域之间完全隔离,保证不同区域间最大程度的稳定性和容错性。为了降低访问时延、提高下载速度,建议您选择最靠近业务需求的区域。 相关特性 不同区域之间的网络完全隔离,不同区域的云产品默认不能通过内网通信。 如果不同区域之间的云产品之间有通信需求,可以通过公网 IP、VPN等方式进行通信。 如何选择区域 在天翼云中,资源创建或购买成功后不能更换区域,因此选择区域时,您需要慎重考虑以下几个因素: 1. 地理位置:用户和资源部署区域的距离越近,网络时延越低,访问速度越快。建议您基于业务场景对时延的要求选择区域。 中国内地:一般情况下建议选择和您目标用户所在区域最为接近的数据中心,可以进一步提升用户访问速度。如果使用天翼云承载您的全部业务,电信网络可以保证中国内地区域间的快速访问。 其他国家及地区:其他国家及地区提供的带宽主要面向非中国内地的用户。如果您在中国内地,使用这些区域会有较长的访问延迟,不建议您使用。 2. 资源价格及资源覆盖:不同区域的资源规格可能有差异,不同区域的产品覆盖可能有差异,请根据您的需求及预算选择合适的区域。 3. 产品之间的关系:如果多个天翼云产品一起搭配使用,需要注意:不同区域的云主机、对象存储、负载均衡等服务,内网不互通。 4. 经营性备案:如果您使用物理机作为Web服务器,您需要完成经营性备案,同时需要在指定的区域购买实例。(各省(或市)通信管理局对经营性备案的审批要求不同,请以当地管理局经营性备案网站公示内容为准。)
        来自:
        帮助文档
        物理机 DPS
        产品简介
        区域和可用区
      • 功能特性
        本文带您了解训推服务的功能特性。 简化训练和部署的复杂流程 在传统的AI模型研发流程中,科研人员需要经历一系列繁琐的环节,包括数据准备、模型构建、模型训练、模型评估、模型优化以及模型部署等。这些环节不仅涉及数据工程、模型框架、算法开发、模型加速等多个技术领域,还要求科研人员熟练使用数据治理工具、数据标注工具、数据管理工具、数据读取工具等一系列专业工具组件。同时,他们还需处理这些工具与硬件环境、操作系统环境的适配问题,以及管理众多的依赖环境包。这一复杂过程不仅耗时耗力,而且大大提高了模型研发的使用成本和复杂程度。 训推智算服务平台通过整合全链路的工具组件,实现了训练与部署流程的极大简化,为科研人员提供了一站式解决方案。用户无需再为繁杂的工具和环境配置而烦恼,只需专注于模型的核心研发工作。智算开发平台不仅降低了大模型开发的使用门槛,更让AI技术的普及和应用变得更加便捷和高效。 开箱即用,降低调优成本 大模型场景下训练数据处理和使用的过程尤为复杂。硬件层面,需确保编译环境、框架工具、依赖资源包等与硬件完美适配。软件层面,需保障操作系统、深度学习框架、编译器等软件工具的顺畅运行。针对大模型的训练和调优更是加剧了整个过程的复杂程度,同时伴随着大量的时间和算力资源的消耗。传统训练调优工具往往无法满足要求。 训推智算服务平台为用户带来了便利,通过平台,用户无需进行任何额外的配置或调试,开箱即用。平台预置了丰富的预训练模型和镜像环境,针对不同场景提供了多样化预置数据集,确保用户能够迅速投入工作。同时,平台集成了大模型微调训练工具,适用于专属大模型的快速训练。此外,平台还支持分布式训练和DeepSpeed加速框架,提供断点续训功能,支持小样本微调,使用户能够轻松定制专属模型,极大地降低了调优成本,提高了研发效率。
        来自:
        帮助文档
        训推服务
        产品介绍
        功能特性
      • 创建云主机备份
        帮助用户快速创建云主机备份,为云主机或磁盘提供保护。物理机备份与弹性云主机备份操作一致。暂时不支持将备份在存储库间迁移,请在备份前合理规划存储库的使用。 帮助用户快速创建云主机备份,为云主机或磁盘提供保护。 物理机备份与弹性云主机备份操作一致。 备份云主机时,不会对云主机造成任何性能影响。 备份的业务高峰期在0点到早上6点,建议客户评估业务类型,分散时间备份,如果指定的策略在业务高峰时段,可能会有一定的调度延迟。 前提条件 只有“运行中”和“关机”状态的云主机支持备份。 至少存在一个可用的云主机备份存储库。 操作步骤 1. 登录云服务备份管理控制台。 a. 登录管理控制台。 b. 单击管理控制台左上角的,选择区域。 c. 单击“”,选择“存储 > 云服务备份”。选择对应的备份目录。 2. 在云主机备份界面,选择“存储库”页签,找到云主机所对应的存储库。 3. 执行备份,有以下两种方式。 单击“操作”列下的“执行备份”。选择绑定存储库上需要备份的云主机,勾选后将在已勾选服务器列表区域展示,如下图所示。 图 选择需要备份的云主机 单击目标存储库名称,进入存储库详情。在“绑定的服务器”页签,找到目标云主机。单击“操作”列下的“执行备份”,为目标云主机进行备份,如下图所示。 图 执行备份 4. 需要输入备份的“名称”和“描述”,如下图所示。 参数 说明 备注 名称 输入待创建的备份的名称。创建成功后,支持修改备份名称。只能由中文字符、英文字母、数字、下划线、中划线组成,且长度小于等于64个字符。 说明: 也可以采用默认的名称,默认的命名规则为“manualbkxxxx”。备份多个云主机时,系统自动增加后缀,例如:备份0001,备份0002。 manualbkd819 描述 输入待创建的备份的描述。描述长度小于等于255个字符。 5. 选择是否“执行全量备份”。勾选后,系统会为绑定的云主机执行全量备份,备份所占存储容量也会相应增加。如下图所示。 图 执行全量备份 6. 单击“确定”。系统会自动为云主机创建备份。 在“备份副本”页签,产生的备份的“备份状态”为“可用”时,表示备份任务执行成功。 说明 云主机备份在执行备份过程中,若备份进度已经超过10%可重启云主机。但为了保证数据完整性,建议备份完成后再执行重启。 执行备份成功后,后续可以使用云主机备份恢复云主机数据或创建镜像,详情请参见
        来自:
        帮助文档
        云服务备份
        快速入门
        创建备份
        创建云主机备份
      • 修改筛选条件
        本文对修改筛选条件的操作步骤进行说明。 使用场景 当您的筛选条件已不满足需求时,您可以选择修改筛选内容。 前提条件 注册天翼云账号,并完成实名认证。具体操作,请参见天翼云账号注册流程。 操作步骤 1. 登录控制中心。 2. 在控制中心页面左上角点击,选择区域,本文我们选择华东华东1。 3. 依次选择“网络”,单击“虚拟私有云”;进入网络控制台页面。 4. 在左侧导航栏,选择“流量镜像筛选条件”选项。 5. 在筛选条件页面,找到需要修改的筛选条件,然后在操作列单击“修改”按钮,根据您的需求修改名称和描述信息。
        来自:
        帮助文档
        虚拟私有云 VPC
        流量镜像
        修改筛选条件
      • 主机指标监控
        本文为您了解主机监控功功能。 操作场景 使用主机监控可以帮助您及时快速了解云主机及物理机监控信息。 云主机监控分为基础监控、操作系统监控、进程监控,物理机监控包括CPU、内存、网络、磁盘等监控指标。 前提条件 注册天翼云账号,并完成实名认证。具体操作,请参见天翼云账号注册流程。 您已经完成云产品的创建。 操作步骤 1. 登录控制中心。 2. 在控制中心页面左上角点击,选择区域,本文我们选择华东1。 3. 依次选择“管理与部署”,单击“云监控”,进入监控概览页面。 4. 单击“主机监控”下拉菜单,选择“云主机监控”或“物理机监控”选项,进入对应云产品的监控页面。 5. 单击待查看的云服务资源所在行的“查看监控图表”,可查看该云产品中指定资源的监控图表。 说明 云主机、物理机监控数据采集依赖Agent插件,插件默认集成在在系统镜像中,用户无需手动安装。 如果云主机、物理机“监控状态”显示异常,用户可以手动排查定位问题及手动安装Agent插件。 如果云监控服务云主机、物理机列表页“监控状态”提示升级,用户只需点击升级按钮,即可完成Agent插件更新。
        来自:
        帮助文档
        云监控服务
        用户指南
        主机监控
        主机指标监控
      • 规格说明
        在您购买弹性云主机前,请先阅读本文了解弹性云主机的选型基本信息。 规格族&规格的关系 规格族是一组具有相同处理器、相似业务场景和使用场景的规格的集合,根据CPU、内存等配置,一种实例规格族又分为多种实例规格。 实例规格定义了实例的基本属性:CPU和内存(包括CPU型号、主频等),同时配合云硬盘、镜像和网络类型,才能唯一确定一台实例的具体服务形态。 规格命名说明 实例规格名称格式为 . . :某个词语的缩写,标志着实例规格族的性能领域。如:s代表通用型,c代表计算型,m代表内存型,ip代表超高IO型,d代表磁盘增强型,e代表经济型,k代表鲲鹏,h代表海光,f代表飞腾,p代表计算加速型 g代表图形加速基础型。 :一般用于区分同类型规格族间的发布时间,更大的数字代表新一代规格族。如:3、6、7、8等。 :一般用于说明规格族的其他特性。如:a代表采用AMD处理器,ne代表网络增强型,t代表安全增强型。 :由small、large或 xlarge组成,表示vCPU核数。small特指1 vCPU 1G内存的小规格,medium为1 vCPU,large为2 vCPU,xlarge为4 vCPU, 中的n越大,表示vCPU核数越多,如2xlarge代表2 4 8 vCPU,3xlarge代表3 4 12 vCPU等等,以此类推。 :如1、2、4、8等,代表内存GB数和vCPU的比例。 例如,s2.2xlarge.1表示通用型2代云主机,具有8核CPU和8GB内存。
        来自:
        帮助文档
        弹性云主机 ECS
        产品概述
        产品规格
        规格说明
      • 创建伸缩配置
        错误码 errorCode 描述 Scaling.Config.ConfigNumberMoreThanLimit 弹性伸缩配置数量超过限制 Scaling.Config.ConfigNameInvalid 名称错误,只能由数字、字母、组成,不能以数字和开头、以结尾,且长度为250字符 Scaling.Config.FlavorNotFound 未找到规格信息 Scaling.Config.ImageNotFound 未找到该镜像信息 Scaling.Config.DiskTypeNotSupported 不支持的磁盘类型 Scaling.Config.DiskCountQuotaLimited 磁盘数目配额不足 Scaling.Config.UseFloatingsNotSupported 是否使用弹性公网IP Scaling.Config.BillingModeNotSupported 不支持该计费方式 Scaling.Config.BandWidthInvalid 无效的带宽,范围为[13000]Mbps Scaling.Config.NotFound 未找到弹性伸缩配置信息 Scaling.Config.LoginModeNotSupported 不支持该登录方式 Openapi.Workorder.AccessFailed 系统错误 Scaling.Parameter.InvalidError 请求参数错误
        来自:
        帮助文档
        弹性伸缩服务 AS
        API参考
        API(公测中)
        伸缩配置
        创建伸缩配置
      • 修改主机名称(hostname)
        本文介绍如何修改实例的主机名称(hostname)。 操作场景 您可以根据需求修改实例的主机名称(hostname)。 操作前提 云主机需处于运行中状态。 以下镜像暂不支持通过控制台手动修改hostname: CentOS 6系列 Windows Server 2008 系列 修改弹性云主机的主机名 方法一: 1. 登录控制中心。 2. 单击控制中心顶部的,选择“地域”。 3. 单击左侧导航栏“产品服务列表”,选择“计算 > 弹性云主机”。 4. 将鼠标移动至目标云主机的“操作”列。 5. 单击“更多” ,编辑“编辑云主机属性”,在输入框中修改主机名称。 参数 命名规则 主机名称 Windows系统,长度为 2~15个字符,允许使用大小写字母、数字或连字符()。不能以连字符()开头或结尾,不能连续使用连字符(),也不能仅使用数字。其他操作系统(Linux等),长度为 2~64个字符,允许使用点号(.)分隔字符成多段,每段允许使用大小写字母、数字或连字符(),但不能连续使用点号(.)或连字符()。不能以点号(.)或连字符()开头或结尾。修改主机名称需要重启生效。 6. 单击“确定”,完成弹性云主机名称修改。 方法二: 1. 登录控制中心。 2. 单击控制中心顶部的,选择“地域”。 3. 单击左侧导航栏“产品服务列表”,选择“计算 > 弹性云主机”。 4. 单击在云主机列表页需要修改主机名的云主机蓝色实例名称,进入云主机详情页。 5. 单击主机名称的编辑标识,在输入框中输入要修改的主机名称。 6. 单击“确定”后,点击右上角的“重启”使编辑的主机名(hostname)生效。 注意 重启实例必须通过控制台界面或调用RebootInstance API来完成,在操作系统内重启不能使修改后新的主机名生效。 在操作系统内部修改实例的主机名,如通过执行hostnamectl命令或编辑/etc/hostname文件等方式,不会同步到实例属性中,无法通过控制台或API得到修改后新的主机名,因此不建议通过此方式修改实例的主机名。
        来自:
        帮助文档
        弹性云主机 ECS
        用户指南
        云主机实例
        管理实例属性
        修改主机名称(hostname)
      • 目的端类
        迁移后目的端服务器的密码会发生哪些变化? 迁移后目的端服务器的密码有以下两种情况: 迁移任务已完成,目的端服务器鉴权方式与源端服务器保持一致,即用户名、证书、密码都与源端服务器保持一致。 迁移任务未完成时,即目的端系统盘为sms开头的临时磁盘。 Linux迁移,目的端服务器选择已有服务器,目的端代理镜像密码为目的端系统原密码。 Linux迁移,目的端服务器选择创建新服务器,在迁移过程中会生成随机密码。迁移完成后,目的端服务器密码恢复为您源端服务密码。 迁移完成后,如何对Windows系统的目的端服务器进行配置和优化? 操作场景 为了解决Windows系统的源端服务器与目的端弹性云服务器的兼容性问题,您需要手动给目的端服务器安装相关驱动进行优化。 操作步骤 1. 登录管理控制台。 2. 选择“计算 > 弹性云服务器”。 3. 在弹性云服务器列表中,查看目的端服务器的规格。 弹性云服务器的规格命名规则为AB.C.D,例如m2.8xlarge.8。 其中,A表示系列;B表示系列号;C表示当前系列中的规格大小;D表示内存、CPU比,以具体数字表示。 若您的目的端服务器规格的系列号B为“1”,例如规格为“s1.small.2”,则说明目的端服务器为XEN虚拟化类型,您需要安装PV driver。 若您的目的端服务器规格的系列号B不为“1”,例如规格为“s2.small.3”,则说明目的端服务器为KVM虚拟化类型,您需要安装UVP VMTools。 3. 根据3中查询到的目的端服务器虚拟化类型,请您检查目的端服务器中是否已存在PV driver Tools或者UVP VMTools的软件包。 1. 是,请执行7。 2. 否,请您执行5。 4. 根据3中查询到的目的端服务器虚拟化类型,在源端服务器下载PV driver Tools或者UVP VMTools的软件包。 5. 将源端服务器中的PV driver Tools或者UVP VMTools软件包同步至目的端服务器,并执行7。 6. 根据3中查询到的目的端服务器虚拟化类型,在目的端服务器中安装相应的驱动。 说明 若目的端服务器是KVM虚拟化类型,则需要安装UVP VMTools。 若目的端服务器是XEN虚拟化类型,则需要安装PV driver。
        来自:
        帮助文档
        云迁移工具RDA
        常见问题
        目的端类
      • OpenClaw安全风险提示
        为保障您的账户安全、避免额外损失,请务必仔细阅读安全风险提示的全部内容。 OpenClaw 是运行于系统级环境的通用 AI Agent,支持文件读写、代码执行、多步任务编排,可通过聊天工具接收指令执行对应操作。因其具备较高系统操作权限,强烈建议您仅在隔离、可控的云端环境中部署运行。 天翼云提供的 OpenClaw 软件环境来源于第三方或开源社区,仅供您参考与合规使用。您需自行评估使用相关的全部风险,因部署、配置、使用该镜像及相关软件产生的任何直接或间接损失、安全与合规责任,天翼云不承担相关责任。请您确保所有使用行为符合国家法律法规、监管要求及对应开源许可协议。 请您结合自身业务需求与安全要求,合理配置系统与权限策略,保障运行环境安全可控。为降低潜在安全风险,请您重点关注以下使用注意事项: 1. 及时更新版本 定期升级OpenClaw 及相关组件,避免因已知漏洞带来安全风险。 2. 加强数据备份 建议建立定期备份机制,防止因系统故障或误操作导致数据丢失。 3. 控制网络暴露面 非必要情况下,不建议将OpenClaw 服务端口直接暴露至互联网,可通过安全组、内网访问或代理方式进行访问控制。 4. 遵循最小权限原则 仅启用必要的工具和功能,避免授予OpenClaw 过高的系统权限或无限制的自主执行能力。 5. 使用可信来源的Skills插件 建议优先使用官方或经过安全验证的Skills,避免使用来源不明的插件,以降低安全风险。 6. 部署主机安全防护措施 建议安装主机安全防护软件。天翼云为云主机提供免费的主机安全卫士,建议在创建实例时启用相关安全服务。 7. 妥善保护访问凭证 对API Key、Token 等敏感凭证进行安全存储与加密管理,避免泄露。 8. 开启日志与审计机制 建议启用操作日志与行为审计功能,以确保关键操作可记录、可追溯。
        来自:
        帮助文档
        弹性云主机 ECS
        最佳实践
        OpenClaw 部署最佳实践
        OpenClaw安全风险提示
      • 重置Windows云主机密码(未安装重置密码插件)
        本节介绍了重置Windows云主机密码(未安装重置密码插件)的操作场景、前提条件、操作步骤。 操作场景 如果Windows操作系统弹性云主机未安装密码重置插件,可以参见本节内容重新设置密码。 本节操作介绍的方法仅适用于修改Windows本地账户密码,不能修改域账户密码。 Linux操作系统请参见重置Linux云主机密码(未安装重置密码插件)。 说明 如果弹性云主机提前安装了密码重置插件,请参见 公共镜像创建的弹性云主机默认已安装一键重置密码插件。请参考 注意 本节操作的方法需要卸载系统盘,为了避免造成系统盘数据丢失,建议您在操作前先备份系统盘。 前提条件 准备一台Linux操作系统的临时弹性云主机,建议操作系统为Ubuntu14.04以上版本,且该临时弹性云主机与待重置密码的弹性云主机位于同一个可用区。 说明 目前仅支持Ubuntu 16.04和Ubuntu 18.04版本的公共镜像执行该操作。 您可以选择符合要求的已有云主机作为临时弹性云主机,也可以重新购买一台临时弹性云主机。 重新购买的弹性云主机在重置密码后,建议释放,以免继续收费。 临时弹性云主机已经绑定弹性IP,并配置系统aptget源。 通过下面的方法,在临时弹性云主机中安装ntfs3g和chntpw软件包。 方法一: 执行以下命令,安装ntfs3g和chntpw软件包。 sudo aptget install ntfs3g chntpw 方法二: 根据临时弹性云主机的操作系统版本,下载对应版本的ntfs3g和chntpw软件包进行安装。 ntfs3g获取地址: chntpw获取地址:
        来自:
        帮助文档
        弹性云主机 ECS
        常见问题
        密码与密钥对
        密码类
        重置Windows云主机密码(未安装重置密码插件)
      • 云主机快照常见问题
        本文为您介绍云主机快照的常见问题。 云主机快照是否支持跨可用区,地域使用? 不支持。有此类需求可以考虑使用镜像,云主机备份,云硬盘备份,云备份等产品。 云主机重装系统,云主机快照是否还支持使用? 不支持。云主机重装前需要先删除云主机快照。 云主机退订,删除,云主机快照是否还支持使用? 不支持。云主机退订,删除前需要先删除云主机快照。 本地盘云主机支持创建快照吗? 不支持。建议您在应用层做好数据冗余处理,或者为集群创建部署集,提高应用的高可用性。 一个云主机可以绑定几个快照策略? 一个云主机只支持绑定一个快照策略。当云主机已经绑定云主机快照策略A时,再次绑定到云主机快照策略B,云主机将会自动解绑策略A。 云主机快照能否下载或导出到本地? 云主机快照不能下载或导出到本地。有下载需求,请参考镜像相关功能。 文件系统一致性快照和非一致性快照的区别? 区别主要在于选择制作文件系统一致性快照时会尝试同步未落盘数据和冻结文件系统,保证多个云硬盘数据的时序一致。具体数据使用上的区别跟用户具体应用有关,建议用户根据业务自行判断和验证。 注意 文件系统一致性快照表示创建时会尝试同步未落盘数据,冻结文件系统,同步或冻结失败时会生成非一致性快照。创建时会对业务系统造成影响,如需避免影响建议使用非一致性方式或系统空闲时使用。 非一致性快照表示创建时不会同步未落盘数据,冻结文件系统。 关机情况下系统已满足同步数据和冻结文件,会生成一致性快照。开机情况下Windows系统不支持同步数据和冻结文件,会生成非一致性快照。
        来自:
        帮助文档
        弹性云主机 ECS
        常见问题
        云主机快照常见问题
      • 升级节点池
        本节介绍了升级节点池的用户指南。 节点池升级指允许指定节点池中的全部节点,进行操作系统升级、kubelet升级,也可以根据需要组合升级。 使用须知 操作系统升级采用节点重置方式,关于节点重置注意事项参见节点重置 ,建议在业务低峰期操作; 运行时升级、Kubelet升级采用原地升级方式,期间节点不可调度,升级完成后恢复调度; 更换操作系统、容器运行时升级将首先进行节点排水操作,将容器优雅驱逐至其他可用节点,建议在业务低峰期操作;如果应用使用本地存储,可能引起调度失败或者数据丢失,请谨慎操作。节点排水的默认超时时间为30分钟,如果在超时时间内未能完成Pod迁移,CCE将终止本次升级以确保业务稳定性。 约束与限制 私有镜像节点暂不支持升级操作 运行时升级当前仅支持containerd 功能说明 节点池升级功能目前支持操作系统及kubelet,可以根据需要组合选择: 升级类型 说明 操作方式 最新版本 操作系统 支持升级场景: 操作系统版本升级 操作系统类型变更 该操作会通过重置节点的方式升级操作系统,关于节点重置详情参见节点重置 参见节点操作系统说明 章节“主机规格最新操作系统镜像名称” Kubelet 当对应版本的集群,kubelet发布了新的版本,可以将该节点池内节点的kubelet升级到最新版本 采取原地升级的方式升级kubelet组件 参见节点容器运行时说明章节“集群版本与容器运行时对应关系” 容器运行时 当对应版本的集群,容器运行时发布了新的版本,可以将该节点池内节点的运行时升级到最新版本 采取原地升级的方式升级容器运行时 参见下文“集群版本与Kubelet对应关系”
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        节点与节点池
        节点池
        升级节点池
      • 管理保密字典
        本文将介绍如何在集群中管理保密字典。 前提条件 确保您已经创建Serverless集群,具体操作请参阅创建Serverless集群。 背景信息 在 Kubernetes 中,保密字典(Secret)是一种用于保存敏感数据的对象。它可以存储像用户名、密码、令牌、密钥、证书等敏感信息,这些信息需要被保护以避免被恶意用户利用。 保密字典可以以字符串或者文件的形式保存敏感信息,它们被编码为 base64 格式并存储在 Kubernetes 集群中。 保密字典可以被用于各种用例,例如:在容器中或 Pod 中挂载配置文件、合并 Docker 镜像的安全证书等。 保密字典的使用方式类似于配置项目,但保密字典显然更加安全,因为它可以加密保存,并且可以限制访问权限。您可以在 Pod 中使用 Volume 或者环境变量引用保密字典,或者将其用作镜像源、终端服务器等。 创建保密字典 1. 登录云容器引擎控制台,在左侧导航栏中选择“集群”。 2. 在集群列表页面中,单击目标集群名称,并在左侧导航栏中选择“配置管理” 。 3. 选择“保密字典”,在保密字典页面中,您可以通过以下两种方式创建配置项。 1. 通过保密字典菜单创建。 1. 单击保密字典页面左上角的“创建” 。 2. 在创建保密字典页面中,填写保密字典名称。名称最长100个字符,由小写字母、数字、""及"."组成,且开始和结尾只能是数字和字母。 3. 填写保密字典内容。包括变量名和对应变量值,允许添加多个配置项。支持“上传文本文件”和“上传二进制文件” 。 2. 使用YAML创建。 1. 单击保密字典页面左上角的“新增YAML” 。 2. 在使用模版部署的页面填写保密字典内容,即Secret的相关信息;或者选择从文件导入然后单击保存。
        来自:
        帮助文档
        云容器引擎 Serverless版
        用户指南
        配置项及密钥
        管理保密字典
      • 命令拷贝
        应用场景 适用于用户的迁移服务器(物理机、弹性云主机)可以访问待迁移数据,且和HPFS网络互通,同时保证可挂载并行文件系统的场景下的迁移操作。 准备工作 1. 创建迁移服务器,如果目标HPFS文件系统是NFS协议,迁移服务器可选择弹性云主机。如果目标HPFS文件系统是HPFSPOSIX协议,迁移服务器需要选择物理机(GPU裸金属)。具体限制请参考操作系统限制。 2. 将HPFS文件系统挂载至物理机或弹性云主机,具体操作请参考挂载文件系统。 操作步骤 迁移命令说明 HPFS数据拷贝是文件系统间数据的迁移,推荐使用数据同步工具rsync(remote synchronize)。 centos环境下rsync安装命令: plaintext yum install y rsync rsync支持本地(类似cp,我们一般选择本地方式)或者远端(类似scp)数据拷贝,可以镜像保存整个目录树和文件系统,支持断点续传,快速安全。 rsync使用说明: plaintext 本地拷贝 rsync [OPTION...] SRC... [DEST] 常用选项: partial 保留那些因故没有完全传输的文件,以是加快随后的再次传输 inplace 将更新的数据直接写入目标文件,避免文件复制 delete 删除那些DST中SRC没有的文件 a, archive 归档模式,表示以递归方式传输文件,并保持所有文件属性,等于rlptgoD v, verbose 详细模式输出 c, checksum 打开校验开关,强制对文件传输进行校验 数据拷贝时间可能很长(用户数据量除以数据拷贝带宽),为防止下线执行命令退出,可以采用后台执行的方式执行rsync命令: plaintext nohup rsync a partial inplace v $srcdir $destdir &;
        来自:
        帮助文档
        并行文件服务 HPFS
        用户指南
        数据迁移
        命令拷贝
      • 技术类
        本章节主要介绍故障演练服务技术类问题。 故障演练的实现原理是什么? 不同类型的故障动作实现原理各不相同,详细说明请参考故障动作库中的具体文档,下表简要概述了各类动作的核心原理: 分类 资源类型 动作类型 动作 简介 原理描述 计算 云主机 主机资源 主机宕机 使用云主机接口对实例进行关机 通过调用云主机关机OpenAPI触发关机 计算 云主机 CPU资源 CPU高负载 使用内部自研工具实施CPU高负载 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是启动自定义程序,空跑for循环来消耗CPU时间片 计算 云主机 内存资源 内存高负载 使用内部自研工具实施内存高负载 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是启动自定义程序不断申请内存,模拟主机内存负载升高 注意:设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用 计算 云主机 磁盘资源 IO高负载 使用内部自研工具实施磁盘IO高负载 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是先通过dd命令将数据写入文件中,然后再通过循环读写文件占用磁盘带宽 计算 云主机 磁盘资源 IO Hang 模拟磁盘产生IO Hang效果 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过fsfreeze命令模拟磁盘夯死表现 注意:设置磁盘夯死故障注入后,可能会导致应用无法读写文件产出异常,请谨慎使用 计算 云主机 磁盘资源 磁盘填充 使用内部自研工具实施磁盘填充 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过dd命令将数据写入文件 计算 云主机 网络资源 网络丢包 使用TC和Netem模拟主机内网络丢包 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过增加TC和Netem规则模拟主机内网络丢包 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 计算 云主机 网络资源 网络延迟 使用TC和Netem模拟主机内网络延迟 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过增加TC和Netem规则模拟主机内网络延迟 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 计算 云主机 网络资源 网络包重复 使用TC和Netem模拟主机内网络包重复 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过增加TC和Netem规则模拟主机内网络包重复 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 计算 云主机 网络资源 网络包乱序 使用TC和Netem模拟主机内网络包乱序 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过增加TC和Netem规则模拟主机内网络包乱序 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 计算 云主机 网络资源 网络包损坏 使用TC和Netem模拟主机内网络包损坏 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过增加TC和Netem规则模拟主机内网络包损坏 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 计算 云主机 网络资源 端口占用 模拟指定端口占用 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是启动自定义程序, 创建Socket对象并绑定到指定端口 计算 云主机 网络资源 DNS篡改 篡改指定域名解析到指定IP 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过修改本地DNS解析文件实现 计算 云主机 网络资源 DNS不可用 DNS解析不可用 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过修改本地DNS解析文件或防火墙规则实现 注意:该动作风险较大,请谨慎操作 计算 云主机 JVM故障 JVM延迟 向特定JVM进程注入方法调用延迟故障 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令 原理是通过Java Agent在JVM进程内插入sleep代码来实现 中间件 Redis 集群资源 主从切换 Redis主从切换 通过调用Redis主从切换OpenAPI,触发Redis集群实例进行主从切换 中间件 Redis 节点资源 Redis节点故障 Redis节点发生故障 通过调用Redis停止Redis服务OpenAPI,模拟Redis节点故障,故障会触发Redis HA机制进行自动恢复 中间件 Redis 节点资源 Proxy节点故障 Proxy节点发生故障 通过调用Redis停止Proxy服务OpenAPI,模拟Proxy节点不可用 中间件 Redis 节点资源 节点主机宕机 Redis节点关机 通过关闭节点主机,模拟节点宕机 中间件 Redis 节点资源 CPU高负载 Redis节点CPU高负载 在节点启动自定义程序,空跑for循环来消耗CPU时间片 中间件 Redis 节点资源 内存高负载 Redis节点内存高负载 在节点启动自定义程序不断申请内存,模拟主机内存负载升高 注意:设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用 中间件 Redis 节点资源 磁盘IO高负载 Redis节点磁盘IO高负载 在节点先通过dd命令将数据写入文件中,然后再通过循环读写文件占用磁盘带宽 中间件 Redis 节点资源 磁盘IO Hang Redis节点磁盘IO Hang 在节点通过fsfreeze命令模拟磁盘夯死表现 中间件 Redis 节点资源 网络丢包 Redis节点网络丢包 在节点通过增加TC和Netem规则模拟主机内网络丢包 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 中间件 Kafka 节点资源 Broker节点主机宕机 Broker节点关机 指定或随机一个Broker节点进行关机 中间件 Kafka 节点资源 Broker节点CPU高负载 Broker节点CPU高负载 指定或随机一个Broker节点启动自定义程序,空跑for循环来消耗CPU时间片 中间件 Kafka 节点资源 Broker节点磁盘IO高负载 Broker节点磁盘IO高负载 指定或随机一个Broker节点先通过dd命令将数据写入文件中,然后再通过循环读写文件占用磁盘带宽 中间件 Kafka 节点资源 分区Leader不可用 分区Leader发生故障 指定一个或多个分区Leader,通过调用Kafka模拟Leader故障OpenAPI,触发Leader重新选举 中间件 RCC 集群资源 停止服务 注册配置中心集群服务故障 通过调用RCC停止集群OpenAPI,模拟RCC集群服务故障 中间件 RCC 节点资源 停止节点 注册配置中心节点故障 通过调用RCC停止节点OpenAPI,模拟RCC节点故障 云容器 容器集群 节点资源 托管Master节点宕机 关闭云容器引擎Master节点主机 通过关闭云容器引擎Master节点主机,模拟Master节点宕机(支持托管版本和智算版) 云容器 容器集群 节点资源 节点宕机 关闭云容器引擎纳管的节点主机 通过关闭云容器引擎纳管的节点主机,模拟节点宕机(支持Worker节点或专有版容器Master节点) 云容器 容器集群 节点资源 Etcd节点宕机 停止Etcd服务,模拟Etcd节点宕机 通过停止Etcd节点上的服务,模拟Etcd节点宕机 云容器 集群Node CPU资源 CPU高负载 使用内部自研工具实施CPU高负载 启动自定义程序,空跑for循环来消耗CPU时间片 云容器 集群Node 内存资源 内存高负载 使用内部自研工具实施内存高负载 启动自定义程序不断申请内存,模拟主机内存负载升高 注意:设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用 云容器 集群Node 磁盘资源 IO高负载 使用内部自研工具实施磁盘IO高负载 先通过dd命令将数据写入文件中,然后再通过循环读写文件占用磁盘带宽 云容器 集群Node 磁盘资源 磁盘填充 使用内部自研工具实施磁盘填充 通过dd命令将数据写入文件 云容器 集群Node 网络资源 网络丢包 使用TC和Netem模拟Node内网络丢包 通过增加TC和Netem规则模拟Node内网络丢包 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Node 网络资源 网络延迟 使用TC和Netem模拟Node内网络延迟 通过增加TC和Netem规则模拟Node内网络延迟 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Node 网络资源 网络包重复 使用TC和Netem模拟Node内网络包重复 通过增加TC和Netem规则模拟Node内网络包重复 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Node 网络资源 网络包乱序 使用TC和Netem模拟Node内网络包乱序 通过增加TC和Netem规则模拟Node内网络包乱序 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Node 网络资源 网络包损坏 使用TC和Netem模拟Node内网络包损坏 通过增加TC和Netem规则模拟Node内网络包损坏 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Node 网络资源 DNS篡改 篡改指定域名解析到指定IP 通过修改本地DNS解析文件实现 云容器 集群Node 应用进程 进程停止 终止节点上的指定进程 通过kill 9停止节点上的指定进程 云容器 集群Node 应用进程 进程挂起 挂起节点上的指定进程 通过kill STOP挂起节点上的指定进程 云容器 集群Pod CPU资源 CPU高负载 使用内部自研工具实施CPU高负载 启动自定义程序,空跑for循环来消耗CPU时间片 云容器 集群Pod 内存资源 内存高负载 使用内部自研工具实施内存高负载 启动自定义程序不断申请内存,模拟主机内存负载升高 注意:设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用 云容器 集群Pod 磁盘资源 IO高负载 使用内部自研工具实施磁盘IO高负载 先通过dd命令将数据写入文件中,然后再通过循环读写文件占用磁盘带宽 云容器 集群Pod 磁盘资源 磁盘填充 使用内部自研工具实施磁盘填充 通过dd命令将数据写入文件 云容器 集群Pod 网络资源 网络丢包 使用TC和Netem模拟Pod内网络丢包 通过增加TC和Netem规则模拟Pod内网络丢包 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Pod 网络资源 网络延迟 使用TC和Netem模拟Pod内网络延迟 通过增加TC和Netem规则模拟Pod内网络延迟 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Pod 网络资源 网络包重复 使用TC和Netem模拟Pod内网络包重复 通过增加TC和Netem规则模拟Pod内网络包重复 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Pod 网络资源 网络包乱序 使用TC和Netem模拟Pod内网络包乱序 通过增加TC和Netem规则模拟Pod内网络包乱序 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Pod 网络资源 网络包损坏 使用TC和Netem模拟Pod内网络包损坏 通过增加TC和Netem规则模拟Pod内网络包损坏 注意:只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败 云容器 集群Pod 网络资源 DNS篡改 篡改指定域名解析到指定IP 通过修改本地DNS解析文件实现 云容器 集群Pod Pod资源 Pod删除 删除指定Pod 调用云容器引擎K8S API删除Pod 云容器 集群Pod 应用进程 进程停止 终止节点上的指定进程 通过kill 9停止节点上的指定进程 云容器 集群Pod 应用进程 进程挂起 挂起节点上的指定进程 通过kill STOP挂起节点上的指定进程 云容器 集群Pod JVM故障 JAVA方法调用延迟 指定JVM进程与方法增加调用延迟 通过Java Agent拦截指定JVM进程内方法,增加sleep操作模拟调用延迟 云容器 集群Pod JVM故障 JAVA方法抛自定义异常 指定JVM进程与方法抛出自定义异常 通过Java Agent拦截指定JVM进程内方法,增加thow操作模拟抛出异常 云容器 容器镜像 Harbor服务 Harbor服务不可用 停止Harbor服务,模拟容器镜像仓库不可用 通过调用容器镜像服务OpenAPI,停止Harbor服务,模拟容器镜像仓库不可用
        来自:
        帮助文档
        应用高可用
        常见问题
        故障演练服务
        技术类
      • 在Linux主机上登录Windows云主机
        开启远程桌面协议RDP 首次登录弹性云主机时,请先使用VNC方式登录弹性云主机,打开RDP(Remote Desktop Protocol),然后再使用mstsc方式连接。 说明 使用公共镜像创建的云主机,默认已打开RDP。 1. VNC方式登录弹性云主机。 登录方法请参见远程登录(VNC方式Windows)。 2. 单击“开始”菜单,选择“控制面板 > 系统和安全 > 系统 > 远程设置”。 系统进入“系统属性”页面。 图 系统属性 3. 选择“远程”页签,在“远程桌面”栏,选择“允许远程连接到此计算机”。 4. 单击“确定”。
        来自:
        帮助文档
        弹性云主机 ECS
        用户指南
        实例
        登录Windows弹性云主机
        在Linux主机上登录Windows云主机
      • 工作负载升级配置
        升级示例 Deployment的升级可以是声明式的,也就是说只需要修改Deployment的YAML定义即可,比如使用kubectl edit命令将上面Deployment中的镜像修改为nginx:alpine。修改完成后再查询ReplicaSet和Pod,发现创建了一个新的ReplicaSet,Pod也重新创建了。 $ kubectl edit deploy nginx$ kubectl get rs NAME DESIRED CURRENT READY AGE nginx6f9f58dffd 2 2 2 1m nginx7f98958cdf 0 0 0 48m$ kubectl get pods NAME READY STATUS RESTARTS AGE nginx6f9f58dffdtdmqk 1/1 Running 0 1m nginx6f9f58dffdtesqr 1/1 Running 0 1m Deployment可以通过maxSurge和maxUnavailable两个参数控制升级过程中同时重新创建Pod的比例,这在很多时候是非常有用,配置如下所示。 spec: strategy: rollingUpdate: maxSurge: 1 maxUnavailable: 0 type: RollingUpdate 在前面的例子中,由于spec.replicas是2,如果maxSurge和maxUnavailable都为默认值25%,那实际升级过程中,maxSurge允许最多3个Pod存在(向上取整,21.252.5,取整为3),而maxUnavailable则不允许有Pod Unavailable(向上取整,20.751.5,取整为2),也就是说在升级过程中,一直会有2个Pod处于运行状态,每次新建一个Pod,等这个Pod创建成功后再删掉一个旧Pod,直至Pod全部为新Pod。 回滚 回滚也称为回退,即当发现升级出现问题时,让应用回到老的版本。Deployment可以非常方便的回滚到老版本。 例如上面升级的新版镜像有问题,可以执行kubectl rollout undo命令进行回滚。 $ kubectl rollout undo deployment nginx deployment.apps/nginx rolled back Deployment之所以能如此容易的做到回滚,是因为Deployment是通过ReplicaSet控制Pod的,升级后之前ReplicaSet都一直存在,Deployment回滚做的就是使用之前的ReplicaSet再次把Pod创建出来。Deployment中保存ReplicaSet的数量可以使用revisionHistoryLimit参数限制,默认值为10。
        来自:
        帮助文档
        云容器引擎
        用户指南
        工作负载
        容器设置
        工作负载升级配置
      • 弹性IP带宽测速方法
        步骤一:创建云主机并绑定EIP 开通创建云主机,绑定弹性EIP操作流程请参考: < ● 华东1云主机A购买公网带宽:10Mbps ● 西南1云主机B购买公网带宽:10Mbps 步骤二:安装iperf3 检查云主机上的安全组及网络ACL配置,确保云主机能够正常访问公网。 分别在华东1、西南1的云主机上安装iperf3 执行命令:yum install iperf3 说明:CentOS、CTyunOS镜像环境下执行命令为yum install iperf3,如果是其他操作系统,请以操作系统实际命令为准。 步骤三:打流测试 以华东1 云主机作为客户端,西南1云主机做为服务端,从华东1向西南1进行打流测试,查看华东1的出云带宽。 本次测试以iperf udp方式打流,指定带宽为客户购买带宽10Mbps 服务端:西南1 执行命令:iperf3 s (启动服务) 注意:iperf3在不指定端口的情况下,默认使用端口5201,请在客户端和服务端云主机上,注意安全组的配置,放行该端口;如果指定其他端口,也注意要在安全组中放行。 客户端:华东1 执行命令:iperf3 c XX.XX.XX.XX(西南1 EIP地址) t 30 b 10M i 15 u 参数说明: t 30 : 发送报文持续时间为30秒 b 10M:指定发送报文带宽10Mbps i 15:测试结果的输出周期为15秒 u:使用UDP协议打流 通过以上测试,可以看到华东1出云带宽符合购买带宽10Mbps,丢包为0,基本无抖动。 在西南1查看入云带宽及丢包情况: 入云带宽10Mbps,0丢包,无抖动。 如果想让服务端向客户端打流,查看服务端的出云带宽,可在客户端执行如下命令: iperf3 c XX.XX.XX.XX(西南1 EIP地址) t 30 b 10M i 15 u R 增加R 表示反向测试,则可查看服务端向客户端的打流情况及出云带宽等信息。 通过采用iperf打流的方式,可以辅助您验证实际的公网带宽是否符合业务所需。
        来自:
        帮助文档
        弹性IP EIP
        最佳实践
        弹性IP带宽测速方法
      • 升级
        如何升级HBlock CSI插件。 前置条件 请在升级之前,进行如下场景检查: 检查是否进行调整PV的服务端连接位置操作,如果执行过,需要确保满足以下条件: 如果PV只会被一个Pod挂载,不受影响。 如果PV被多个Pod挂载,请确保全部的Pod都没有进行过重启,或者全部完成了重启。 检查是否在HBlock侧执行过卷的target迁移操作(此处的卷为CSI侧的PV对应的HBlock侧的实例): 如果Kubernetes版本低于1.21,请确保挂载了该PV的Pod全部完成了重启。 Kubernetes版本为1.21及以上,不受影响。 说明 如果对升级方案有任何问题,请联系我们协助处理。如果升级前没有进行检查就执行了升级操作,可能会导致iSCSI连接无法断开,如果遇到此问题,请联系我们进行处理。 iscsid守护进程位置不变的升级 下列情况使用该方案升级: 升级前版本安装时中没设置参数iscsionhost(1.5.1之前版本不能设置该参数),升级后版本也没有设置该参数。 升级前升级后版本都设置了参数iscsionhost。 升级步骤 1. 更新驱动镜像:请根据逐台导入镜像的方式或docker私仓导入镜像的方式章节的步骤,导入最新安装包的驱动。 2. 在升级版本的对应文件下修改HBlock相关配置: 修改deploy/csipluginconf/csiconfigMap.yaml,确保与升级前版本的配置一致。 修改deploy/csipluginconf/csisecret.yaml,确保与升级前版本的配置一致。 修改deploy/csipluginconf/csisecretdecrypt.yaml ,确保与升级前版本的配置一致。 3. 在升级版本的/deploy下执行下列命令升级: 升级前版本安装时中没设置参数iscsionhost(1.5.1之前版本不能设置该参数),升级后版本也没有设置该参数,执行下列命令: plaintext ./deploy.sh 升级前升级后版本都设置了参数iscsionhost,执行下列命令: plaintext ./deploy.sh [ iscsionhost ] [ drivernamedrivername ] [ drivernamespacedrivernamespace ] 说明 如果升级前iscsionhost打开状态,则 iscsionhost:是必选参数。 drivername:升级前版本的驱动名称,如果升级前版本的驱动名称为默认值stor.csi.k8s.io,可以不填此参数。 drivernamespace:升级前版本绑定的Kubernetes命名空间,如果升级前版本绑定的Kubernetes命名空间为默认值default,此参数可以不填写。 4. 升级后检查: 可以在宿主机启动样例POD,进行基础流程测试,确认功能正常。 重启Kubernetes所有的slave宿主机节点,确认各存量POD能正确启动。(如果不验证重启恢复的场景,可跳过这步。) 从低版本(小于等于1.6.0)升级到高版本(大于等于1.6.1)后,如存在业务POD,确保在没有正在新建或者删除POD的前提下,执行命令kubectl get pod A grep csistorpluginnode awk '{print $2}' xargs I {} kubectl exec {} c storpluginnode sh c'/storadmupgrade addmissingtrackfile',补齐缺失的trackfile。 注意 kubectl get pod A grep csistorpluginnode的作用是过滤出所有CSI节点的驱动POD。执行此命令前需管理员检查此处需要与驱动实际部署方案一致,如果不一样,请修改为对应CSI节点的驱动POD。 命令执行完成后,将显示添加成功与失败的 tracefile 数量。若存在添加失败的情况(如提示“Failed to add x file(s)”),管理员需及时排查原因并处理。 如果用户使用了自定义的驱动部署方案,请注意:storadm工具的执行依赖于环境变量DRIVERNAME和KUBENODENAME,因此必须在 CSI Node Server 的Pod中配置这两个环境变量,否则可能导致功能异常。 plaintext env: name: DRIVERNAME value: 驱动名 name: KUBENODENAME valueFrom: fieldRef: apiVersion: v1 fieldPath: spec.nodeName
        来自:
        帮助文档
        存储资源盘活系统
        常用工具
        Container Storage Interface插件
        脚本方式使用指南
        升级
      • 批量创建云主机
        操作说明 本方案基于 天翼云 ROS(资源编排服务)控制台,实现云主机批量快速创建与销毁,有效提升资源交付效率,降低人工运维成本。 方案内置两类标准化编排模板,分别支持同配置批量创建 与多规格差异化创建两种场景,用户可根据业务规模与实例需求灵活选用,快速完成批量资源部署。 适用场景 云主机批量快速搭建 多环境标准化批量部署 临时业务资源快速创建与释放 操作步骤 1. 登录控制中心。 2. 在控制台首页搜索“资源编排ROS”,或在左侧产品导航栏选择“管理工具 > 资源编排ROS”,进入资源编排控制台。 3. 在左侧导航栏选择 模板管理。 4. 在模板管理页面,单击创建模板, 可参考创建模板完成模板配置。 5. 模板默认基于华东1资源池, 可以根据需要可以进行调整。 模板1:创建多台相同配置云主机,模板使用count语法实现 java terraform { requiredproviders { ctyun { source "ctyunit/ctyun" version "2.1.0" } } } provider "ctyun" { azname var.azname } variable "azname" { type string default "cnhuadong1jsnj1Apublicctcloud" description "可用区名称" } variable "instancename" { type string default "testecs" description "云主机名称" } variable "instancecount" { type number default 4 description "云主机数量" } variable "imageid" { type string default "f9415853b07d4dd8afb7f48e10de151e" description "镜像ID" } variable "flavorname" { type string default "c7.xlarge.2" description "规格名称" } variable "systemdisktype" { type string default "SAS" description "系统盘类型" } variable "systemdisksize" { type number default 40 description "系统盘大小" } variable "password" { type string sensitive true description "密码" } variable "bandwidth" { type number default 10 description "公网带宽" }
        来自:
        帮助文档
        资源编排ROS
        最佳实践
        批量创建云主机
      • 使用大模型学习机微调自己的图像生成模型
        配置github地址(可选) 如果您在执行git clone时始终因为网络问题无法成功,则可参考本节内容。 1. 获取可用的ip地址 注意 1. IP地址并不会一直固定,未来如无法访问github,您需要重新确认最新的IP地址。 2. 可以使用代理服务器彻底解决问题,但注意如果设置了httpproxy系统变量,需要在使用完毕后取消设置,或者在/root/stablediffusionwebui/run.sh启动脚本中增加一项share ,否则webui服务会报错无法访问localhost。 2. 修改hosts文件 请确保当前在docker容器内。 通过vim编辑器修改/etc/hosts文件,添加如下内容: plaintext 从ipaddress查到的真实ip地址 140.82.114.3 github.com 完成配置后,访问github相关链接成功概率提升(但不保证一定成功)。 2. 下载插件文件 请确保当前在docker容器内。 进入到/root/stablediffusionwebui/extensions目录下,并下载dreambooth插件。 plaintext cd /root/stablediffusionwebui/extensions git clone 遇到连接失败可以多重试几次,如果始终失败,则参考4.1节的内容手动配置github地址。 3. 安装插件需要的依赖库 请确保当前在docker容器内。 stablediffusionwebui采用了python venv的方式进行环境隔离,首先需要进入到虚拟环境。 plaintext cd /root/stablediffusionwebui source venv/bin/activate 执行成功后,命令行界面开头将出现(venv)标识。 然后在插件文件夹内安装依赖库。由于pip库访问受限问题,这里采用了清华的镜像源。 plaintext cd /root/stablediffusionwebui/extensions/sddreamboothextension pip install r requirements.txt i 安装成功后将出现如下提示: 4.
        来自:
        帮助文档
        弹性云主机 ECS
        最佳实践
        大模型学习机最佳实践
        使用大模型学习机微调自己的图像生成模型
      • 使用密钥
        密钥创建后,可在工作负载环境变量和数据卷两个场景使用。 须知: 如下密钥为CCE系统使用的,请勿对其做任何操作。 不要操作kubesystem下的secrets。 不要操作任何命名空间下的defaultsecret、paas.elb。其中,defaultsecret用于SWR的私有镜像拉取,paas.elb用于该命名空间下的服务对接ELB。 使用密钥配置Pod的数据卷 使用密钥设置Pod的环境变量 本节以下面这个所Secret为例,具体介绍Secret的用法。 apiVersion: v1 kind: Secret metadata: name: mysecret type: Opaque data: username: myusername 用户名 password: 需要用Base64编码 说明:在Pod里使用密钥时,需要Pod和密钥处于同一集群和命名空间中。 使用密钥配置Pod的数据卷 密钥可以在Pod中作为文件使用。如下面的Pod示例所示,mysecret密钥的username和password以文件方式保存在/etc/foo目录下。 apiVersion: v1 kind: Pod metadata: name: mypod spec: containers: name: mypod image: redis volumeMounts: name: foo mountPath: "/etc/foo" readOnly: true volumes: name: foo secret: secretName: mysecret 另外,还可以指定密钥的目录路径和权限,username存放在容器中的/etc/foo/mygroup/myusername目录下。 apiVersion: v1 kind: Pod metadata: name: mypod spec: containers: name: mypod image: redis volumeMounts: name: foo mountPath: "/etc/foo" volumes: name: foo secret: secretName: mysecret items: key: username path: mygroup/myusername mode: 511 挂载Secret到数据卷还可以在界面上进行操作,在创建工作负载时,设置容器的高级设置,选择数据存储,添加本地磁盘,选择Secret即可配置。具体请参见密钥(Secret)挂载.docx
        来自:
        帮助文档
        云容器引擎
        用户指南
        旧版UI
        配置中心
        使用密钥
      • 通过云堡垒机纳管应用服务器
        本章节主要介绍通过添加单个应用服务器、从文件导入应用服务器、添加单个应用发布、从文件导入应用发布,将应用资源纳入云堡垒机进行集中管理。 通过在一台支持远程桌面的Windows系统或者Linux操作系统服务器上,部署客户端软件和浏览器,应用发布是将服务器和应用帐户纳入云堡垒机管理的功能。 用户获取应用发布访问权限后,通过应用帐户的密码自动代填,访问客户端应用和Web应用,并以视频方式全程记录用户运维操作,实现对远程应用帐户的安全管理和用户远程访问应用的操作审计。 云堡垒机支持添加Chrome、Edge、Firefox、SecBrowser、Oracle Tool 、MySQL、SQL Server Tool、dbisql、VNC Client、VSphere Client、Radmin等应用。 约束限制 添加的主机和应用资源数量总和不能超过资产数。 支持对Windows Server2008 R2及以上的Windows系统版本的应用进行管理。 支持对Centos7.9系统的Linux服务器的应用进行管理。 Linux服务器仅支持调用Firefox浏览器应用和达梦管理工具V8。 Linux服务器和堡垒机之间需要开通的端口号:2376和35000~40000,且端口号不可修改。 Linux服务器的密码请联系技术支持获取。 添加应用发布前,需已添加应用服务器。 Edge浏览器应用不支持配置自动登录帐户。 前提条件 已另行购买Windows类型主机或者Linux服务器、镜像、企业授权码、客户端License等资源,用于部署应用发布服务器。 已成功安装应用服务器,详细操作指导请参见: 安装应用发布服务器 。 已获取“应用服务器”和“应用发布”模块管理权限。
        来自:
        帮助文档
        运维安全中心(云堡垒机)
        用户指南
        系统资源
        通过云堡垒机纳管应用服务器
      • 设置应用健康检查
        本节主要介绍设置应用健康检查 健康检查是指应用组件在运行过程中,根据需要,定时检查应用健康状况。 平台提供了两种健康检查的方式: 组件存活探针:该检查方式用于检测应用组件是否存活,类似于执行ps命令检查进程是否存在。如果应用组件的存活检查失败,集群会对该应用组件执行重启操作;若应用组件的存活检查成功则不执行任何操作。 组件业务探针:该检查方式用于检测应用组件是否准备好开始处理用户请求。一些程序的启动时间可能很长,比如要加载磁盘数据或者要依赖外部的某个模块启动完成才能提供服务。这时候程序进程存在,但是并不能对外提供服务。这种场景下该检查方式就非常有用。如果应用组件的就绪检查失败,集群会屏蔽请求访问该组件;若检查成功,则会开放对该应用组件的访问。 健康检查方式 HTTP请求检查 HTTP请求方式针对的是提供HTTP/HTTPS服务的应用组件,集群周期性地对该应用发起HTTP/HTTPS GET请求,如果HTTP/HTTPS response返回码属于200~399范围,则证明探测成功,否则探测失败。使用HTTP请求探测必须指定应用监听的端口和HTTP/HTTPS的请求路径。 例如:提供HTTP服务的应用组件,端口为80,HTTP检查路径为/healthcheck,主机地址为containerIP,那么集群会周期性地对应用发起如下请求: GET 说明 HTTP请求检查中的主机地址,如果不填写,默认为实例IP。 TCP端口检查 对于提供TCP通信服务的应用,集群周期性地对该应用建立TCP连接。如果连接成功,则证明探测成功,否则探测失败。选择TCP端口探测方式,必须指定应用监听的端口。比如有一个nginx应用组件,它的服务端口是80,对该应用组件配置了TCP端口探测,指定探测端口为80,那么集群会周期性地对该应用组件的80端口发起TCP连接,如果连接成功则证明检查成功,否则检查失败。 执行命令检查 命令检查方式要求用户指定一个应用组件内的可执行命令,集群会周期性地在应用组件内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。 对于上面提到的TCP端口检查和HTTP请求检查,都可以通过执行命令检查的方式来替代: −对于TCP端口探测,可以使用程序来对应用组件的端口进行connect,如果connect成功,脚本返回0,否则返回1。 −对于HTTP请求探测,可以使用脚本来对应用组件进行wget: wget 并检查response的返回码,如果返回码在200~399的范围,脚本返回0,否则返回1。 注意 必须把要执行的程序放在应用组件的镜像里面,否则会因找不到程序而执行失败。 如果执行的命令是一个shell脚本,由于集群在执行应用组件里的程序时,不在终端环境下,因此不能直接指定脚本为执行命令,需要加上脚本解释器。比如脚本是/data/scripts/healthcheck.sh,那么使用执行命令检查时,指定的程序应该是sh /data/scripts/healthcheck.sh。究其原因是集群在执行应用组件里的程序时,不在终端环境下。
        来自:
        帮助文档
        微服务云应用平台
        用户指南
        应用运维
        设置应用健康检查
      • 产品定义
        容器安全 容器安全是HSS为容器提供的一种防护能力,通过部署在容器宿主机中的Agent,能够扫描镜像中的漏洞与配置信息,帮助企业解决传统安全软件无法感知容器环境的问题;同时容器安全提供容器进程白名单、文件只读保护和容器逃逸检测功能,可以有效防止容器运行时安全风险事件的发生。 网页防篡改 网页防篡改可实时监控网站目录,并通过备份恢复被篡改的文件或目录,保障重要系统的网站信息不被恶意篡改,从而保护网站的网页、电子文档、图片等文件不被黑客篡改和破坏。
        来自:
        帮助文档
        企业主机安全
        产品介绍
        产品定义
      • OpenClaw安全风险提示
        为保障您的账户安全、避免额外损失,请务必仔细阅读安全风险提示的全部内容 为保障您的账户安全、避免额外损失,请务必仔细阅读安全风险提示的全部内容 OpenClaw 是运行于系统级环境的通用 AI Agent,支持文件读写、代码执行、多步任务编排,可通过聊天工具接收指令执行对应操作。因其具备较高系统操作权限,强烈建议您仅在隔离、可控的云端环境中部署运行。 天翼云提供的OpenClaw 软件环境来源于第三方或开源社区,仅供您参考与合规使用。您需自行评估使用相关的全部风险,因部署、配置、使用该镜像及相关软件产生的任何直接或间接损失、安全与合规责任,天翼云不承担相关责任。请您确保所有使用行为符合国家法律法规、监管要求及对应开源许可协议。 请您结合自身业务需求与安全要求,合理配置系统与权限策略,保障运行环境安全可控。为降低潜在安全风险,请您重点关注以下使用注意事项: 1. 及时更新版本 定期升级OpenClaw 及相关组件,避免因已知漏洞带来安全风险。 2. 加强数据备份 建议建立定期备份机制,防止因系统故障或误操作导致数据丢失。 3. 控制网络暴露面 非必要情况下,不建议将OpenClaw 服务端口直接暴露至互联网,可通过安全组、内网访问或代理方式进行访问控制。 4. 遵循最小权限原则 仅启用必要的工具和功能,避免授予OpenClaw 过高的系统权限或无限制的自主执行能力。 5. 使用可信来源的Skills插件 建议优先使用官方或经过安全验证的Skills,避免使用来源不明的插件,以降低安全风险。 6. 部署主机安全防护措施 建议安装主机安全防护软件。天翼云为云主机提供免费的主机安全卫士,建议在创建实例时启用相关安全服务。 7. 妥善保护访问凭证 对API Key、Token 等敏感凭证进行安全存储与加密管理,避免泄露。 8. 开启日志与审计机制 建议启用操作日志与行为审计功能,以确保关键操作可记录、可追溯。
        来自:
        帮助文档
        轻量型云主机
        最佳实践
        一键部署OpenClaw操作指南
        OpenClaw安全风险提示
      • 大模型推理性能测试实践
        技术特性差异 部署复杂度 vLLM Benchmark:从vLLM的github代码仓库源克隆 EvalScope:提供Docker镜像和Python CLI工具链,支持快速接入ModelScope社区模型和数据集 LLMPerf:依赖Ray分布式框架,需修改Tokenizer配置适配私有化模型 测试数据灵活性 vLLM Benchmark:使用ShareGPTV3、LongAlpaca等结构化数据集,也可使用随机数据自定义输入长度 EvalScope:允许自定义输入长度(datasetinputlength)和样本重复次数 LLMPerf:支持动态调整输入Token分布参数(meaninputtokens) 结果可视化 vLLM Benchmark/EvalScope:支持Wandb面板实时监控测试进度 LLMPerf:生成CSV格式原始数据,需二次处理 4. 典型应用场景 vLLM Benchmark 推理引擎选型(如对比vLLM、LMDeploy、TensorRTLLM的吞吐量) 长上下文支持能力验证(如测试16k+Token输入的显存溢出风险) EvalScope 生产环境服务容量规划(如通过parallel 模拟多路并发) 多模态模型效果性能平衡分析(如Embedding模型响应延迟与召回率关联性) LLMPerf 云API服务商性能对比(如Anthropic Claude vs OpenAI GPT4 Turbo) 模型部署前的SLA合规性检查(如验证P99延迟是否达标) 5. 工具选型建议 LLMPerf:功能比较单一,适合API基准测试以及快速对比多个LLM API性能场景,聚焦于LLM API性能(如延迟、吞吐量、请求成功率)和正确性测试(输出格式与内容验证); EvalScope:功能全面且灵活,适合复杂评测的需求场景,支持多维度评估,包括模型能力、性能压测、端到端RAG评测、多模态模型评测等。适合综合评估模型在学术研究、工业部署中的表现,支持自定义评测指标和复杂场景(如竞技场模式、长文本生成测试); vLLM Benchmark:主要针对vLLM推理引擎的性能优化(如PagedAttention技术效果、多卡扩展性)。专为优化vLLM框架的部署参数设计,适合需要调整批次大小、显存利用率等参数以实现高吞吐量推理的场景。 六、 附录 vLLM官方代码仓库 EvalScope官方文档 LLMPerf官方代码仓库 DeepSeek提示库
        来自:
        帮助文档
        弹性云主机 ECS
        最佳实践
        AIGC实践
        大模型推理性能测试实践
      • 设置容器健康检查
        检查方式 HTTP 请求检查 HTTP 请求方式针对的是提供HTTP/HTTPS服务的容器,集群周期性地对该容器发起HTTP/HTTPS GET请求,如果HTTP/HTTPS response返回码属于200~399范围,则证明探测成功,否则探测失败。使用HTTP请求探测必须指定容器监听的端口和HTTP/HTTPS的请求路径。 例如:提供HTTP服务的容器,HTTP检查路径为:/healthcheck;端口为:80;主机地址可不填,默认为容器实例IP,此处以172.16.0.186为例。那么集群会周期性地对容器发起如下请求:GET 图 HTTP请求检查 TCP 端口检查 对于提供TCP通信服务的容器,集群周期性地对该容器建立TCP连接,如果连接成功,则证明探测成功,否则探测失败。选择TCP端口探测方式,必须指定容器监听的端口。 例如:我们有一个nginx容器,它的服务端口是80,我们对该容器配置了TCP端口探测,指定探测端口为80,那么集群会周期性地对该容器的80端口发起TCP连接,如果连接成功则证明检查成功,否则检查失败。 图 TCP端口检查 执行命令检查 命令检查是一种强大的检查方式,该方式要求用户指定一个容器内的可执行命令,集群会周期性地在容器内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。 对于上面提到的TCP端口检查和HTTP请求检查,都可以通过执行命令检查的方式来替代: 对于TCP端口探测,我们可以写一个程序来对容器的端口进行connect,如果connect成功,脚本返回0,否则返回1。 对于HTTP请求探测,我们可以写一个脚本来对容器进行wget。 wget 并检查response 的返回码,如果返回码在200~399 的范围,脚本返回0,否则返回1。如下图: 图 执行命令检查 注意 必须把要执行的程序放在容器的镜像里面,否则会因找不到程序而执行失败。 如果执行的命令是一个shell脚本,由于集群在执行容器里的程序时,不在终端环境下,因此不能直接指定脚本为执行命令,需要加上脚本解析器。比如脚本是 /data/scripts/healthcheck.sh ,那么我们使用执行命令检查时,指定的程序应该是 sh /data/scripts/healthcheck.sh 。究其原因是集群在执行容器里的程序时,不在终端环境下。
        来自:
      • 训练性能加速
        平台通过多种加速策略实现MFU提升和线性加速比提升。 MFU提升 在平台上使用1152卡对Llama3.1405B进行预训练和微调,通过数据加速、镜像加速、3D并行等加速策略,实现MFU的提升: MFU 芯片算力(%):达到44.185 MFU CUBE算力(%):达到47.064 环境配置 服务器型号 Atlas 800T A2 NPU型号 910B2(64GB) 驱动版本 23.0.3 CANN 8.0.RC2 Python 3.10.14 MindSpore 2.3.1 Mindformers dev分支(5bfebf+diff.patch) 训练配置 Epochs 100 Learning Rate 6.e5 Global Batch Size 2048 Batch Size 1 Micro Batch Size 256 Sequence Length 4096 Data Parallel (DP) 8 Model Parallel (MP) 8 Pipeline Parallel (PP) 18 maxdevicememory 54GB jitlevel O2 训练结果 吞吐量(tokens/s/p) 61.962 MFU 芯片算力(%) 44.185 MFU CUBE算力(%) 47.064 线性加速比提升 在平台测试模型训练规模的性能线性比,分别测试1k,2k,4k,6k,9k规模并作对比如下(以千卡规模为基准): 训练规模(卡数) 吞吐量(tokens/s/p) MFU(芯片/CUBE)(%) 线性比(%) 1024 407.701 47.847 / 50.965 100 2048 403.415 47.344 / 50.429 98.95 4096 400.734 47.030 / 50.094 98.29 6144 393.577 46.190 / 49.200 96.54 9216 366.915 43.061/ 45.867 90.00
        来自:
        帮助文档
        训推服务
        用户指南
        训推加速
        训练性能加速
      • 1
      • ...
      • 44
      • 45
      • 46
      • 47
      • 48
      • ...
      • 489
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      物理机 DPS

      多活容灾服务

      镜像服务 IMS

      弹性高性能计算 E-HPC

      天翼云CTyunOS系统

      AI Store

      智算一体机

      知识库问答

      人脸检测

      推荐文档

      云课堂 第五课:CC攻击介绍及如何防御

      云课堂 第九课:如何选择天翼云云硬

      文档下载

      玩转天翼云②:linux系统攻击基本排查方法

      JAVA API

      域名DNS配置

      VPC安全组删除规则

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号