爆款云主机低至25.83元/年
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 云聚517 · 好价翼起拼 NEW 爆款云主机低至25.83元/年,参与拼团享更多优惠,拼成得额外优惠券
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 聚力AI赋能 天翼云大模型专项 大模型特惠专区·Token Plan 轻享包低至9.9元起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 企业出海解决方案 NEW 助力您的业务扬帆出海,通达全球!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
星辰TokenHub
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V4-Flash
  • GLM-5.1
  • Qwen3.5-122B-A10B
  • DeepSeek-V3.2(旗舰版)
  • GLM-5(正式版)
智算一体机
  • 智算一体机
智能体引擎
  • 智能体引擎
可信数据空间
  • 可信数据空间
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      天翼云远程监控_相关内容
      • 云容器集群节点磁盘IO高负载
        2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云容器引擎节点。 添加实例 :单击添加实例 ,勾选上一步中添加的云容器引擎节点实例。 添加故障动作 :单击立即添加 ,在列表中选择磁盘IO高负载动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 读负载:开启读压力模式,创建一个临时文件并对其进行持续的读取操作。 写负载:开启写压力模式,持续向一个临时文件写入数据。 块大小(MB):控制单次读写操作的数据块大小,单位为MB。增大此值可以提升单次操作的 IO 压力。通常保持默认值即可。 3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到磁盘IO高负载动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录云容器引擎控制台,进入目标实例节点的监控指标页,观测磁盘读写速率(Bps)指标。 2、业务应用验证: 观察运行在目标节点上、且挂载了持久化存储(PVC)的业务 Pod(如数据库、中间件等),确认其读写性能是否下降或出现超时。 检查无状态应用的日志写入是否出现延迟或失败。 验证您的业务监控告警系统是否成功捕获到节点磁盘I/O异常或应用性能劣化,并触发了相应告警。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        云容器
        云容器引擎
        云容器集群节点磁盘IO高负载
      • 云容器集群节点内存高负载
        2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云容器引擎节点。 添加实例 :单击添加实例 ,勾选上一步中添加的云容器引擎节点实例。 添加故障动作 :单击立即添加 ,在列表中选择内存高负载动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 内存占用率:目标占用率(取值 0100)。 注意 建议您将目标内存占用率设置在 95% 以下,为操作系统内核和 kubelet 等关键系统进程预留足够的内存。若内存被完全耗尽,可能导致节点无响应、探针失联甚至节点进入 NotReady 状态,从而需要强制重启节点才能恢复。 3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到内存高负载动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录云容器引擎控制台,进入目标实例节点的监控指标页,观测内存使用率指标。 2、业务应用验证: 观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。 执行 kubectl get pod o wide 查看 Pod 状态,确认是否有 Pod 因 OOMKilled 而被重启。 如果为相关 Pod 配置了基于内存的 HPA 策略,观察是否触发了自动扩容。 验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化,并触发了相应告警。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        云容器
        云容器引擎
        云容器集群节点内存高负载
      • 设置RabbitMQ告警规则
        操作步骤 步骤 1 登录管理控制台。 步骤 2 在管理控制台右上角单击,选择区域。 说明 此处请选择RabbitMQ实例所在的区域。 步骤 3 在管理控制台左上角单击,选择“企业中间件”>“分布式消息服务”>“RabbitMQ专享版”,进入分布式消息服务RabbitMQ专享版页面。 步骤 4 通过以下任意一种方法,查看监控数据。 在RabbitMQ实例名称后,单击“查看监控数据”。跳转到云监控页面,查看实例、节点和队列的监控数据,数据更新周期为1分钟。 单击RabbitMQ实例名称,进入实例详情页。在左侧导航栏单击“监控”,进入监控页面,查看实例、节点和队列的监控数据,数据更新周期为1分钟。 步骤 5 在实例监控指标页面中,找到需要创建告警的指标项,鼠标移动到指标区域,然后单击指标右上角的,进入“创建告警规则”页面。 步骤 6 在告警规则页面,设置告警信息。 创建告警规则操作,请查看《云监控服务用户指南》的创建告警规则和告警通知。 1. 设置告警名称和告警的描述。 2. 设置告警策略和告警级别。 例如,在进行指标监控时,如果连续3个周期,连接数原始值超过设置的值,则产生告警,如果未及时处理,则每一天发送一次告警通知。 3. 设置“发送通知”开关。当开启时,设置告警生效时间、产生告警时通知的对象以及触发的条件。 4. 单击“立即创建”,等待创建告警规则成功。
        来自:
        帮助文档
        分布式消息服务RabbitMQ
        用户指南
        监控
        设置RabbitMQ告警规则
      • 容灾演练
        本文为您介绍容灾演练的操作流程。 操作场景 在不影响业务的情况下,通过容灾演练模拟真实的容灾恢复场景,确保在生产中心发生故障时能够顺畅地进行故障切换,且容灾中心云主机能够正常拉起、接管业务。 操作须知 容灾演练时,云上容灾恢复拉起时部署的云主机会产生费用,仅支持按需计费,收费标准按照云主机标准资费收取。 容灾演练时会创建容灾演练云主机。由于需要创建主机,需要在灾备VPC中申请IP,请保证灾备VPC的IP充足,否则可能导致流程失败。 前提条件 受保护服务器处于“实时复制中”、“实时复制停止中”或“实时复制停止”状态。 操作步骤 1. 登录控制中心。 2. 单击控制中心左上角的,选择地域。 3. 在存储产品中选择“云容灾”,进入云容灾页面。 4. 在云容灾页面,单击“云上容灾”,进入保护组板块展示页面。 5. 在保护组板块展示页面,找到目标保护组,单击目标保护组板块,进入保护组页面。 6. 在保护组页面,在“受保护的服务器”页签,找到目标主机名,单击操作列的“容灾演练”,进入容灾演练页面。 7. 在容灾演练页面,根据界面提示,配置容灾演练参数。 参数 说明 容灾云主机名称 请输入切换后的云主机名称。长度为2~15 个字符,只能由英文、数字和特殊字符""组成,且只能以英文开头,以英文或数字结尾。 规格 请选择切换后的云主机规格。 注意:请根据容灾中心实际业务情况选择容灾云主机的规格,如果容灾云主机规格比生产中心降配太多,切换后可能导致业务无法流畅运行。 IP地址 请选择IP地址类型。 两种IP地址类型区别如下: DHCP:动态分配云主机的IP地址。 手动指定:用户可以手动输入指定云主机的IP地址。 磁盘类型 请选择磁盘类型。 恢复点 请选择恢复时间点。默认为当前时间,也可以单击“编辑”选择其他恢复点。 弹性IP 请选择弹性IP。 8. 单击“启动”,开始容灾演练,容灾演练过程中,实时数据复制不受影响。 9. 当容灾演练完成,单击容灾演练信息下的链接,跳转到云主机详情页,远程登录云主机,验证数据与应用。 10. 验证完成后,为了降低容灾演练恢复出来的云主机费用,建议尽快单击该服务器对应的操作栏下的“清空演练环境”,将恢复出来的服务器删除。
        来自:
        帮助文档
        云容灾 CDR
        快速入门
        容灾演练
      • 天翼云 GPU 云主机构建高性能 Deepseek 集群最佳实践-32B等版本
        常见Deepseek部署方案大都是单点服务,单个Deepseek服务承载能力有限,难以支撑数以千计的高并发场景。多机集群能够显著提升系统的处理能力、可靠性和扩展性,更能满足企业实际需求。本文以天翼云GPU云主机和弹性负载均衡为例,详细介绍在天翼云构建Deepseek集群的步骤。 步骤一:创建GPU云主机 1. 进入创建云主机页面 1. 点击天翼云门户首页的“控制中心”,输入登录的用户名和密码,进入控制中心页面。 2. 单击“服务列表>弹性云主机”,进入主机列表页。 3. 单击“创建云主机”,进入弹性云主机创建页。 2. 进行基础配置 1. 基础配置 根据业务需求配置“计费模式”、“地域”、“企业项目”、“虚拟私有云”、“实例名称”、“主机名称”等。 2. 选择规格。 此处选择"CPU架构"为"X86"、"分类"为"GPU加速/AI加速型"、"规格族"为"GPU计算加速型pn8r"、"规格"为"pn8r.16xlarge.4"。 3. 选择镜像 “镜像类型”选择“镜像市场”,在云镜像市场中选择预置了DeepSeek R1模型的DeepSeekR132BvLLMUbuntu22.04镜像。 4. 设置云硬盘。 3.
        来自:
        帮助文档
        弹性云主机 ECS
        最佳实践
        AIGC实践
        天翼云 GPU 云主机构建高性能 Deepseek 集群最佳实践-32B等版本
      • 设置告警规则
        本章节介绍如何设置数据库监控告警规则。 操作场景 通过设置关系型数据库告警规则,用户可自定义监控目标与通知策略,及时了解关系型数据库运行状况,从而起到预警作用。 设置关系型数据库的告警规则包括设置告警规则名称、服务、维度、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。 操作步骤 步骤 1 登录管理控制台。 步骤 2 选择“管理与部署 > 云监控”。 步骤 3 在左侧导航树栏,选择“告警 > 告警规则”。 步骤 4 在“告警规则”界面,单击“创建告警规则”进行添加。
        来自:
        帮助文档
        关系数据库SQL Server版
        用户指南
        监控
        设置告警规则
      • 配置审计日志导出参数
        本章节主要介绍翼MapReduce服务配置审计日志导出参数。 操作场景 MRS的审计日志长期保留在系统中,可能引起数据目录的磁盘空间不足问题,故通过设置导出参数及时将审计日志自动导出到OBS服务器的指定目录下,便于管理审计日志信息。 说明 审计日志导出到OBS服务器的内容包含两部分,服务审计日志和管理审计日志。 服务审计日志每天凌晨3点自动压缩存储到主管理节点“/var/log/Bigdata/audit/bk/”,保存的文件名格式为.tar.gz。默认情况下,保存的文件个数为7份(即7天的日志),超过7份文件时会自动删除7天前的文件。 管理审计日志每次导出到OBS的数据范围是从最近一次成功导出到OBS的日期至本次执行任务的日期。管理审计日志每达到10万条时,系统自动将前9万条审计日志转储保存到本地文件中,数据库中保留1万条。转储的日志文件保存路径为主管理节点“${BIGDATADATAHOME}/dbdataom/dumpData/iam/operatelog”,保存的文件名格式为“OperateLogstoreYYMMDDHHMMSS.csv”,保存的审计日志历史文件数最大为50个。 前提条件 用户已经获取帐号对应的Access Key ID(AK)和Secret Access Key(SK)。 用户已经在帐号的对象存储服务(OBS)中创建了并行文件系统。 操作步骤 在MRS Manager,单击“系统设置”。 1.在“维护”下单击“审计日志导出”。 审计日志导出参数 参数名 参数值 参数解释 开始时间 07/24/2017 09:00:00(举例) 必选参数,指定审计日志导出的开始时间。 周期 1天(举例) 必选参数,指定审计日志转导出的时间间隔,间隔周期范围为(1~5天)。 桶名 mrsbucket(举例) 必选参数,指定审计日志导出到OBS的文件系统名。 OBS路径 opt/omm/oms/auditLog(举例) 必选参数,指定审计日志导出到OBS的路径。 AK XXX(举例) 必选参数,用户的Access Key ID。 SK XXX(举例) 必选参数,用户的Secret Access Key。 说明 审计日志在OBS的存储路径细分为serviceauditlog和managerauditlog,分别用于存储服务审计日志和管理审计日志。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        MRS Manager操作指导(适用于2.x及之前)
        日志管理
        配置审计日志导出参数
      • 产品优势
        快速交付 提供软硬一体化交付方案,预置大模型、混合云管平台及高性能基础设施,支持全流程自动化部署,最快仅需2天即可完成环境搭建。 全栈管理 打造全栈式管理平台,涵盖计算、存储、网络及大模型资源的一站式管理功能,支持大模型的纳管调用,助力用户快速构建专属问答助手。 安全可控 确保本地化部署,满足政务、医疗等行业"数据不出机房"的安全要求,同时通过严格的权限隔离机制,全面保障信息安全。 极简运维 多维度监控、告警数据,帮助用户提前发现业务运行隐患;属地化运维和724小时在线服务,全方位解决客户后顾之忧。
        来自:
        帮助文档
        混合云一体机推理基础版
        产品介绍
        产品优势
      • 修改大模型学习机登录密码
        本文向您介绍如何修改大模型学习机的登录密码。 本文向您介绍如何修改大模型学习机的登录密码,以下为修改大模型学习机的登录密码的文字教程。 1. 在云主机控制台,选择您购买云主机的地域,点击云主机的操作更多重置密码。 2. 点击“远程登录”按钮。 3. 进入虚机内部,输入 root 回车,在password处输入刚刚修改的密码(密码不可见,请输入完直接回车)。 4. 点击右上角的“粘贴输入”,在输入框中粘贴以下指令,点击“确定发送”,点击虚机屏幕后回车发送指令。 修改文本大模型密码指令: plaintext vim /root/textgenerationwebui/gradioauth.txt 或 修改图像生成大模型密码指令: plaintext vim /root/stablediffusionwebui/gradioauth.txt 进入修改对应大模型登录密码界面。 5. 改user和user后的密码后,按Esc退出编辑模式。再次点击右上角的“粘贴输入”,在输入框中粘贴 :wq 指令,点击“确定发送”,点击虚机屏幕后回车发送指令。返回以下内容表示修改成功。 6. 再次点击右上角的“粘贴输入”,在输入框中依次粘贴输入以下命令,“确认发送”后点击虚机屏幕,回车。使修改的大模型密码登录密码生效。 plaintext cd /root plaintext sh restartllamawebui.sh plaintext sh restartsdwebui.sh 此时密码修改成功,您可以通过使用修改后的密码登录大模型。
        来自:
        帮助文档
        弹性云主机 ECS
        最佳实践
        大模型学习机最佳实践
        修改大模型学习机登录密码
      • IPv6切换方案
        云防火墙(原生版) N100型为用户提供了全面的IPv6支持方案,本文将详细说明在实施和迁移到IPv6环境时的最佳实践。 前提条件 在使用云防火墙(原生版) N100型的IPv6方案之前,确保满足以下前提条件: 双栈云主机 :承载云防火墙(原生版) N100型的云主机必须支持IPv6双栈,即同时支持IPv4和IPv6协议。如果当前云主机不支持双栈,请重新下单申请新的支持双栈的云主机,关于双栈云主机的详细信息请参见双栈云主机。 子网启用IPV6 :在迁移过程(重新下单)中,承载云防火墙(原生版) N100型的云主机所在的子网必须启用IPv6。确保子网设置正确,以避免开通问题。若未启用IPv6,请在控制台中提前进行配置,详细操作请参见开启IPv6双栈。 方案步骤 为确保顺利实施IPv6方案,建议遵循以下步骤: 1. 环境评估 检查当前云主机的配置,确认其是否为IPv6双栈主机。 评估现有应用和服务的IPv6兼容性,确保迁移不会影响业务。 2. 子网启用IPv6 在云平台控制台中,检查云防火墙(原生版) N100型主机需要使用的子网是否开启IPV6,即确保子网已启用IPv6。若尚未启用,请参考开启IPv6双栈进行设置。 3. 申请双栈主机 对于不支持IPv6的云防火墙(原生版) N100型主机,需重新下单云防火墙(原生版) N100型开通双栈云主机,确保其所选主机支持IPv6,详细操作请参见购买N100实例。 4. 进行IPv6切换 对于希望使用IPv6方案的现有用户,请按照以下步骤进行切换: 1. 登录云防火墙(原生版)管理控制台。 2. 点击实例列表操作列的“配置”,登录云防火墙(原生版)实例,进入配置界面。 3. 根据需求完成云防火墙(原生版)IPV6策略等配置。 4. 业务割接。 5. 测试与验证 完成配置后,进行全面的测试,以确保IPv6连接正常。验证云防火墙(原生版) N100型的安全策略是否有效应用于IPv6流量。 6. 监控与优化 实施后,请定期监控IPv6流量,评估防火墙性能,并根据业务需求及时优化安全策略,以应对网络变化。 说明 如需进一步支持,欢迎联系技术支持团队获取更多信息和帮助。
        来自:
        帮助文档
        云防火墙(原生版)
        最佳实践
        N100最佳实践
        IPv6切换方案
      • 公网NAT网关
        检查网络ACL是否放通子网流量 检查VPC的子网是否关联了网络ACL,如果关联了网络ACL,请检查“ 网络ACL”规则。 1. 登录管理控制台。 2. 在管理控制台左上角单击,选择区域和项目。 3. 在系统首页,选择“网络 > 虚拟私有云”。 4. 在左侧导航栏选择“子网”。 5. 查看NAT网关对应的子网是否关联了网络ACL。 显示具体的网络ACL名称说明已关联网络ACL。 6. 单击网络ACL名称查看网络ACL的详细信息。 7. 检查入方向规则和出方向规则是否添加了放通子网流量的规则。 如果未添加放通子网流量的规则,请添加入方向、出方向规则放通子网流量或者将网络ACL与子网取消关联。 检查弹性公网IP的带宽是否超限 公网NAT网关绑定了弹性IP时,通过带宽提供公网和公网NAT网关间的访问流量。 如果出现网络不通,请排查弹性IP带宽是否超过带宽最大上限。 检查公网NAT网关业务量是否超过规格上限 1. 登录管理控制台。 2. 在管理控制台左上角单击,选择区域和项目。 3. 选择“管理与监管 > 云监控服务”。 4. 单击页面左侧的“云服务监控”,选择“NAT网关”。 5. 单击“操作”列的“查看监控指标”,查看公网NAT网关的监控指标详情。 6. 检查公网NAT网关SNAT连接数是否超过NAT网关规格上限。 − 如果SNAT连接数未超过公网NAT网关规格上限,请检查下一项。 − 如果SNAT连接数超过公网NAT网关规格上限,请提升公网NAT网关规格。
        来自:
        帮助文档
        NAT网关
        常见问题
        公网NAT网关
      • 平台对IP执行封堵有什么依据?
        本小节介绍对公网IP执行封堵的相关依据。 平台对IP执行封堵有什么依据? 平台对 IP 执行 DDoS 封堵,主要依据《天翼云弹性 IP 服务协议》《天翼云弹性云主机服务协议》《天翼云 DDoS 基础防护服务协议》等产品协议中的通用服务条款。相关条款明确约定:“如因您账户遭遇该等行为而给云公司或者云公司网络或服务器(包括但不限于本地及外地和国际的网络、服务器等)带来危害,或影响云公司与国际互联网或者云公司与特定网络、服务器及云公司内部的通畅联系,云公司有权决定暂停或终止服务”,其中前文已表明“该等行为”包含DDoS。 当 IP 遭受的 DDoS 攻击峰值,或其公网业务入向流量速率超出平台分配的 DDoS 防护阈值时,会挤占资源池公共带宽资源、影响整体网络稳定,已符合上述条款中 “因 DDoS 攻击给云厂商网络带来危害” 的判定情形。为此,天翼云通过对 IP 执行封堵的方式暂停服务,屏蔽该IP流量,在保障资源池整体网络安全稳定的同时,也保护其他租户 IP 不受影响、正常运行。
        来自:
        帮助文档
        DDoS基础防护
        常见问题
        公网IP封堵解封类相关问题
        平台对IP执行封堵有什么依据?
      • 云容器集群节点宕机
        3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到节点宕机 动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录云容器引擎控制台,进入目标实例节点的监控指标页,观测监控指标。 2、业务应用验证: 观察依赖该节点的业务服务是否出现短暂不可用、请求失败率升高等现象,验证业务服务在 Pod 重建后的恢复情况。 若业务配置了 Pod 亲和性 / 反亲和性、副本集或 HPA 策略,确认是否按预期进行 Pod 调度与扩缩容。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        云容器
        云容器引擎
        云容器集群节点宕机
      • 配置日志启用
        云下一代防火墙可以进行日志查询,日志启用需登录云下一代防火墙web界面进行配置。 本页面仅列出常规使用配置,其他配置请参考运维人员操作指南下载查询。 操作方法 1.打开菜单栏,【监控→日志→日志管理】,开启对应功能日志记录功能。 2.可进行对应日志查询。
        来自:
        帮助文档
        云下一代防火墙(文档停止维护)
        基础运维指南
        配置日志启用
      • 创建告警规则
        本节为您介绍如何为物理机创建告警规则。 云监控为用户提供了自定义创建告警模板的功能,您可以选择在默认模板推荐的监控指标上进行修改,或自定义添加告警指标完成自定义告警模板的添加。 操作步骤 1. 登录控制中心。 2. 单击控制中心顶部的,选择“地域”,此处我们选择内蒙6。 3. 单击“左侧导航栏>服务列表”,选择“管理与部署>云监控”。 4. 在左侧主机监控功能列表,单击“物理机监控”。 5. 在目标物理机所在行,单击“操作”列的“创建告警规则”。 6. 在“创建告警规则”界面,根据界面提示配置参数。 7. 点击“确定”,即完成告警规则的创建。 8. 告警规则添加完成后,当监控指标触发设定的阈值时,云监控会在第一时间通过邮件实时告知您云上资源异常,以免因此造成业务损失。更多内容请参见创建告警规则。
        来自:
        帮助文档
        物理机 DPS
        最佳实践
        物理机监控最佳实践
        创建告警规则
      • 产品定义
        本节介绍了什么是云硬盘、产品优势及云硬盘、弹性文件服务、对象存储服务的区别。 云硬盘简介 云硬盘(EVS,Elastic Volume Service)可以为云上计算资源提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务,可满足不同场景的业务需求,适用于分布式文件系统、开发测试、数据仓库以及高性能计算等场景。云上计算包括弹性云主机和物理机。 云硬盘简称为磁盘,本文档中也会用磁盘来表示云硬盘。 图1 云硬盘架构 产品优势 云硬盘为云主机提供规格丰富、安全可靠、可弹性扩展的硬盘资源,具体功能特性如下: 规格丰富 EVS提供多种规格的云硬盘,可挂载至云主机用作数据盘和系统盘,您可以根据业务需求及预算选择合适的云硬盘。 弹性扩展 您可以创建的单个云硬盘最小容量为10 GB,最大容量为 32 TB,即,10 GB ≤ 云硬盘容量 ≤ 32 TB。若您已有的云硬盘容量不足以满足业务增长对数据存储空间的需求,您可以根据需求进行扩容,最小扩容步长为1GB,单个云硬盘最大可扩容至32 TB。 扩容云硬盘时还会受容量总配额影响,系统会显示您当前的剩余容量配额,新扩容的容量不能超过剩余容量配额。您可以申请足够的配额满足业务需求。 安全可靠 云硬盘支持备份、快照等数据冗余备份功能,为存储在云硬盘中的数据提供可靠保障,防止应用异常、黑客攻击等情况造成的数据错误。 实时监控 配合云监控(Cloud Eye),帮助您随时掌握云硬盘健康状态,了解云硬盘运行状况。
        来自:
        帮助文档
        云硬盘 EVS
        产品简介
        产品定义
      • 基于Open WebUI实现DeepSeek API调用及外部大模型API接入最佳实践
        使用场景 大模型API提供了接口以便用户更好地进行DeepSeek管理和应用开发。用户在开通天翼云DeepSeek云主机后,利用Open WebUI API即可实现对外提供API调用,同时也可以非常方便的实现外部大模型API接入使用。 本教程使用的GPU云主机规格如下所示,用于部署DeepSeekr1:7b模型,配置仅供参考。 plaintext cpu 16核  内存 64G GPU: NVIDIA A101 (24GB) 如需体验其它模型版本,请参考在天翼云使用Ollama运行 DeepSeek的最佳实践7b版弹性云主机最佳实践AIGC实践 天翼云自定义部署DeepSeek步骤二:规格选型,选择合适的云主机。 准备 参考在天翼云使用Ollama运行 DeepSeek的最佳实践7b版弹性云主机最佳实践AIGC实践 天翼云快速体验DeepSeek ,准备相关设备及模型资源。 认证 OpenWebUI 使用Bearer Token认证保证客户端请求的合法性,其Token为APIKEY中JWT令牌(Json Web Token)。获取API key方式如下: 1. 登录Open WebUI。 2. 选择设置>账户,选择获取或者新建API KEY。
        来自:
        帮助文档
        弹性云主机 ECS
        DeepSeek专题
        实践指南:DeepSeek驱动高效能云生态
        GPU云主机/弹性云主机:零基础搭建DeepSeek云端环境指南
        基于Open WebUI实现DeepSeek API调用及外部大模型API接入最佳实践
      • 手动配置Agent(Linux,可选)
        本文主要介绍 手动配置Agent(Linux,可选) 操作场景 用户成功安装Agent插件后,推荐您采用“修复插件配置”方式配置Agent。如果修复插件配置不成功或其他原因,你可以采用本章节提供的手工方式配置Agent。 本章节以ECS为例介绍如何修改DNS和添加安全组,BMS操作步骤类似。 前提条件 已成功安装Agent插件。 操作步骤 1. 使用root帐号,登录ECS。 2. 执行以下命令,切换至Agent安装路径的bin下。 plaintext cd /usr/local/uniagent/extension/install/telescope/bin 3. 修改配置文件conf.json。 a. 执行以下命令,打开配置文件conf.json。 plaintext vi conf.json b. 修改文件中的参数,具体参数请参见下表。 ECS配置参数 plaintext { "InstanceId":" XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ", "ProjectId": " XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ", "AccessKey": " XXXXXXXXXXXXXXXXXXXX ", "SecretKey": " XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ", "RegionId": "cnhz1" } BMS配置参数 plaintext { "InstanceId":" XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ", "ProjectId": " XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ", "AccessKey": " XXXXXXXXXXXXXXXXXXXX ", "SecretKey": " XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ", "RegionId": "cnhz1" } 表 公共配置参数 参数 说明 InstanceId ECS ID,可通过登录管理控制台,在弹性云主机ECS列表中查看。 说明InstanceId可不用配置,保持"InstanceId":"",即可,若需要配置,需要遵循如下两条原则: 该资源ID需保证全局唯一性,即同一个RegionID下Agent使用的InstanceId不能相同,否则系统可能会出现异常。 InstanceId必须与实际的ECS或BMS资源ID一致,否则云监控服务界面将看不到对应ECS或BMS资源操作系统监控的数据。 ProjectId ProjectId可不用配置,保持"ProjectId": "",即可。若需要配置,请参考已下获取方式。 项目ID,获取方式如下: 1. 登录管理控制台,单击右上角“用户名”,选择“我的凭证”; 2. 在项目列表中,查看ECS或BMS资源对应的所属区域的项目ID。 AccessKey/SecretKey 访问密钥,获取方式如下:登录管理控制台,单击右上角“用户名”,选择“我的凭证 > 管理访问密钥”; 如已有访问密钥,查看创建时下载保存的credentials.csv文件中,获取文件中记录的Key值即可; 如未创建,则通过“新增访问密钥”可创建新的访问密钥,妥善保存credentials.csv文件,并获取文件中记录的Key值。 须知 为了安全考虑,建议该用户为IAM用户,并且权限仅为CES Administrator和LTS Administrator。 配置的AccessKey必须在“我的凭证 > 管理访问密钥”列表中,否则将鉴权失败,云监控服务界面看不到操作系统监控数据。 RegionId 区域ID,例如:ECS或BMS资源所属区域为“杭州”,则RegionID为“cnhz1”。 ClientPort Agent占用的起始端口号。说明默认为0,表示随机占用。11023为系统保留端口,建议不要配置。 PortNum Agent占用的范围的个数。说明默认为200,若ClientPort配置5000,则表示在50005199端口中随机占用。 BmsFlag BMS需配置此参数为true,ECS配置项中无需配置。Windows操作系统中无需要配置。 4. 修改云监控服务指标采集模块的配置文件confces.json。 a. 执行以下命令,打开公共配置文件confces.json。 vi confces.json b. 修改文件中的参数,修改完成后保存confces.json文件。具体参数请参见表下表。 plaintext { "Endpoint": " xxxxxx.xxx .com" } 表 指标采集模块参数配置 参数 说明 Endpoint ECS或BMS资源所属区域的云监控服务Endpoint URL,例如:ECS或BMS资源所属区域为“杭州”,则URL中使用“ces.cnhz1.ctyun.cn”。 说明 Agent插件配置完成后,因监控数据暂未上报,插件状态仍显示“未安装”,等待35分钟,刷新即可。 当插件状态为“运行中”并且监控状态开启时,说明Agent已安装成功并开始采集细粒度监控指标。
        来自:
        帮助文档
        云监控服务
        用户指南
        主机监控
        在弹性云主机(ECS)或物理机(BMS)中安装配置Agent(Linux)
        手动配置Agent(Linux,可选)
      • CoreDNS配置优化实践
        监控CoreDNS状态 云容器引擎监控组件默认配置了CoreDNS相关的指标监控和告警规则。具体安装操作请参见集群监控。 合理调整集群CoreDNS部署状态 CoreDNS应部署于您的Kubernetes集群中,默认情况下与您的业务容器运行在同样的集群节点上,注意事项如下: 合理调整CoreDNS副本数 合理分配CoreDNS副本运行的位置 手动扩容副本数 基于CPU负载指标自动扩容副本数(HPA) 合理调整CoreDNS副本数 建议您在任何情况下设置CoreDNS副本数应至少为2,且副本数维持在一个合适的水位以承载整个集群的解析。 CoreDNS所能提供的域名解析QPS与CPU消耗成正相关,开启缓存的情况下,单个CPU可以支撑10000+ QPS的域名解析请求。不同类型的业务对域名请求的QPS需求存在较大差异,您可以观察每个CoreDNS副本的峰值CPU使用量,如果其在业务峰值期间占用CPU大于一核,建议您对CoreDNS进行副本扩容。无法确定峰值CPU使用量时,可以保守采用副本数和集群节点数1:8的比值来部署,即每扩容8个集群节点,增加一个CoreDNS副本,但副本数不应大于10。针对100节点以上的集群,推荐使用节点DNS缓存NodeLocal DNSCache。 当集群节点数目长时间较为固定时,可以手动扩容副本数。 如果集群节点数持续增长,可以设置自动扩容副本数。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        最佳实践
        网络
        CoreDNS配置优化实践
      • 什么情况下弹性云主机会进入保留期,保留期时长有多久
        本文介绍什么情况下弹性云主机会进入保留期,保留期时长有多久。 如果您购买的弹性云主机进入保留期,可能存在以下几种原因: 包周期资源退订:进入退订保留期,会为您保留15天。 包周期资源到期:进入冻结保留期,会为您保留15天。 账号欠费,按量资源冻结:进入冻结保留期,会为您保留15天。 注意 按需资源删除后直接释放,无保留期。 试用开通的GPU云主机包周期资源到期后,进入冻结保留期,会为您保留2天。 保留期内不收费,业务不可用。保留期满资源将被释放,存储在资源中的数据将被删除,数据无法找回。
        来自:
        帮助文档
        弹性云主机 ECS
        常见问题
        购买与退订冻结相关问题
        什么情况下弹性云主机会进入保留期,保留期时长有多久
      • 云主机网络优化方案
        简单组网 对于相对简单的业务场景,可以仅使用一个VPC。VPC下创建不同子网,对应不同功能或安全区域。 比如:用户搭建一个web网站,业务简单,无需和其他网络互通。 所有服务器全部放到一个个VPC内。 业务子网分为web/APP/DB三个区域,分别放置Web业务经典三层架构的对应服务器。 如有运维和远程接入需求,可再创建相应子网,运维和接入区子网用于部署堡垒机或管理鉴权设备,方便客户远程接入部署业务和运维。 方便后续通过子网ACL的访问权限控制能力实现各个功能区域间的隔离和放通。 复杂组网 针对业务相对复杂的场景,一个VPC对应一个相对独立的业务应用系统或部门网络。 比如:一家大型车企业务上云后,所有业务共享同1根专线连接线下数据中心。 不同业务或部门分别承载在不同的VPC。 不同VPC分别通过对等连接连接到整个系统的公共资源VPC,共享专线访问。
        来自:
        帮助文档
        弹性云主机 ECS
        常见问题
        网络配置类
        其它类
        云主机网络优化方案
      • 产品优势
        本文为您介绍分布式消息服务MQTT的产品优势。 分布式消息服务MQTT(Message Queuing Telemetry Transport)是一种轻量级的、发布/订阅模式的消息传递协议,通常用于分布式消息服务和物联网(IoT)应用。以下是MQTT的一些优势: 轻量级协议: MQTT是一种非常轻量级的协议,适用于各种网络环境,包括低带宽、高延迟或不稳定的网络。这使得它非常适合在IoT设备之间传递消息,因为这些设备通常有限的资源和能源。 发布/订阅模式: MQTT采用发布/订阅模式,允许客户端订阅感兴趣的主题,以接收与这些主题相关的消息。这种模式具有灵活性,能够支持多对多的通信,而不需要直接点对点的连接。 异步通信: MQTT允许异步通信,客户端可以发布消息而不必等待接收方的响应。这有助于提高系统的响应速度和吞吐量。 保留消息: MQTT支持保留消息,这意味着最新的消息可以保留在主题中,以便新订阅者可以立即获取到最新数据,而不必等待下一个消息发布。 服务质量(QoS): MQTT允许设置不同级别的服务质量,从不保证消息送达(QoS 0)到确保消息送达且不重复传递(QoS 2)。这使得可以根据应用的需求选择适当的传递质量。 可伸缩性: MQTT协议可以在大规模分布式系统中轻松扩展,支持成千上万的客户端同时连接到Broker,使其适用于大型IoT解决方案。 消息过滤: MQTT支持使用通配符来订阅主题,这允许客户端根据特定模式匹配多个主题,以接收相关消息。 支持遗愿消息: MQTT支持遗愿消息(Will Messages),允许客户端指定在异常断开连接时发送一条预定义消息。这对于检测设备在线状态非常有用。 跨平台和多语言支持: MQTT具有广泛的跨平台和多语言支持,因此可以在各种设备和编程语言上使用,使得它非常灵活。 安全性: MQTT可以与安全机制(如TLS/SSL)结合使用,确保消息在传输过程中的安全性和隐私。 总的来说,MQTT是一种高效、灵活和可靠的协议,特别适用于分布式消息传递和IoT应用,因此在物联网、远程监控、实时通信等领域得到广泛应用。它的轻量级特性和异步通信使得它成为连接数众多的设备的理想选择。
        来自:
        帮助文档
        分布式消息服务MQTT
        产品介绍
        产品优势
      • 资源分组:更新v4.1
        参数 是否必填 参数类型 说明 示例 下级对象 service 是 String 云监控服务,具体服务参见 ecs dimension 是 String 云监控维度,具体维度参见 ecs resources 是 Array of Objects 资源信息列表 resources
        来自:
        帮助文档
        云监控服务
        API参考
        API(新)
        资源分组
        资源分组:更新v4.1
      • 资源分组:创建v4.1
        参数 是否必填 参数类型 说明 示例 下级对象 service 是 String 云监控服务,具体服务参见 ecs dimension 是 String 云监控维度,具体维度参见 ecs resources 是 Array of Objects 资源信息列表 resources
        来自:
        帮助文档
        云监控服务
        API参考
        API(新)
        资源分组
        资源分组:创建v4.1
      • 产品功能
        功能 功能描述 企业路由器 您可以将企业路由器看作一个支持路由学习的高性能集中路由器,创建企业路由器时,您可以设置部署区域、可用区、名称等参数。 企业路由器创建完成后,您可以根据业务使用情况灵活调整部分参数。 连接 为企业路由器添加网络实例对应的连接,即表示将网络实例接入企业路由器中。 路由表 路由表是企业路由器发送报文的依据,包含连接的关联关系、传播关系以及路由信息。 一个企业路由器可以拥有多个路由表,您可以将连接关联至不同的路由表,从而实现网络实例的灵活互通或者隔离。 关联 关联是将连接关联至ER路由表中,您可以通过以下方法创建关联: 手动创建:选择任意路由表,并在路由表中为连接创建关联。 自动创建:开启“默认路由表关联”功能,指定默认路由表,系统会自动为连接在默认路由表中创建关联。 传播 传播是企业路由器和连接的路由学习关系,您可以通过以下方法创建传播: 手动创建:选择任意路由表,并在路由表中为连接创建传播。 自动创建:开启“默认路由表传播”功能,指定默认路由表,系统会自动为连接在默认路由表中创建传播。 路由 路由是目的地址、下一跳以及路由类型等信息组成。路由分为两种: 自动学习的传播路由。 手动添加的静态路由。 企业路由器支持IPv4和IPv6路由。 共享 所有者可以将自己的企业路由器同时共享给多个其他帐号,称为接受者。 接受者可以在共享企业路由器中添加连接,将自己名下的网络实例加入该企业路由器中,实现多个帐号内的网络实例接入同一个企业路由器构建组网的需求。 对于“虚拟私有云(VPC)”连接,通过共享功能,可以在同一个企业路由器中接入不同帐号下的虚拟私有云,构建云上同区域组网。 流日志 通过流日志功能可以实时记录企业路由器中连接的流量日志信息。通过这些日志信息,您可以监控连接的网络流量、进行网络攻击分析等,帮助您实现高效的网络运维。 监控 通过云监控服务,您可以监控企业路由器实例以及企业路由器连接的网络情况。 审计 通过云审计服务,您可以记录与企业路由器相关的操作事件,便于日后的查询、审计和回溯。 权限 针对位于云上的企业路由器资源,您可以通过IAM进行精细的权限管理,为企业中的员工设置不同的访问权限,以达到不同员工之间的权限隔离,从而实现资源的安全管控。 标签 标签用于标识云资源,可通过标签实现对云资源的分类和搜索。你可以为企业路由器和路由表添加标签。 配额 为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少个企业路由器、每个企业路由器添加多少个连接、每个路由表可以添加多少条路由等。
        来自:
        帮助文档
        企业路由器
        产品介绍
        产品功能
      • 云容器集群Pod内存高负载
        3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到内存高负载动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录云容器引擎控制台,进入目标实例节点的监控指标页,观测内存使用率指标。 验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化,并触发了相应告警 2、业务应用验证: 观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。 如果为相关 Pod 配置了基于内存的 HPA 策略,观察是否触发了自动扩容。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        云容器
        云容器引擎
        云容器集群Pod内存高负载
      • 多租户
        本章节主要介绍翼MapReduce的多租户特性。 特性简介 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 某些类型的用户(例如银行、政府单位等)对数据安全非常关注,很难容忍将自己的数据与其他用户放在一起。 这给大数据集群带来了以下挑战: 合理地分配和调度资源,以支持多种应用和作业在集群上平稳运行。 对不同的用户进行严格的访问控制,以保证数据和业务的安全。 多租户将大数据集群的资源隔离成一个个资源集合,彼此互不干扰,用户通过“租用”需要的资源集合,来运行应用和作业,并存放数据。在大数据集群上可以存在多个资源集合来支持多个用户的不同需求。 因此,翼MR大数据集群提供了完整的企业级大数据多租户解决方案。多租户是翼MR大数据集群中的多个资源集合(每个资源集合是一个租户),具有分配和调度资源(资源包括计算资源和存储资源)的能力。 特性优势 合理配置和隔离资源 租户之间的资源是隔离的,一个租户对资源的使用不影响其它租户,保证了每个租户根据业务需求去配置相关的资源,可提高资源利用效率。 测量和统计资源消费 系统资源以租户为单位进行计划和分配,租户是系统资源的申请者和消费者,其资源消费能够被测量和统计。
        来自:
        帮助文档
        翼MapReduce
        产品简介
        功能特性
        多租户
      • CTCCL简介
        CTCCL(CTyun Collective Communication Library)是天翼云自研的集合通信库。CTCCL针对天翼云自身特点持续优化,提升性能并提供额外的可靠性保障。 CTCCL关键特性 · 主动避障,RDMA网络多路径传输,当感知到部分路径异常,则在条件允许情况下自动将流量切换到正常路径。 · 并行传输,动态感知不同RDMA网络路径的传输能力,合理分配传输任务,从端侧保证带宽利用率最大化。 · 监控能力,日志机制联合事件机制,提供网卡对集合通信带宽监控和QP通信异常事件上报智能平台能力。 · 端网协同,在RoCE组网下实现端网协同负载均衡,降低哈希冲突带来的影响,提高链路利用率。 · 故障定位,结合慢节点工具套件,提供自动化训练中慢节点发现与定位能力。 CTCCL发布记录 版本号 发布日期 更新内容 v0.4.0 2025930 · 新增功能 适配CTCCL慢节点检测工具套件。 · 优化改进 为流体重力功能增加开关,使用环境变量配置,以便灵活使用该功能。 v0.3.0 20241230 ·新增功能 新增QP通信事件上报功能,在机间RDMA通信异常时上报异常事件至平台。仅在一体化计算加速平台·异构计算平台部署的地域可用。 新增集合通信网卡对带宽功能,用户可通过配置环境变量开启,并通过日志查看带宽信息。 新支持RoCE组网端网协同,有效改善交换机端口流量不均问题,提高带宽利用率。 · 缺陷修复 修复了QP数设置大于32直接异常退出的问题。 修复了alltoall集合通信操作时,由于资源开销大而导致的性能低问题。 · 优化改进 优化流体重力算法,以更灵活的动态任务分配方式,在拥塞场景提高通信性能10%。 v0.2.0 20240630 · 新增功能 新增流体重力算法,并行传输,动态感知不同RDMA网络路径的传输能力,合理分配传输任务,从端侧保证带宽利用率最大化。 · 优化改进 v0.1.0 20240430 · 新增功能 天翼云自研集合通信库CTCCL首次发布。 CTCCL具有主动避障功能,提升RDMA通信容错能力。支持单QP传输,当感知到部分路径异常,则在条件允许情况下自动将流量切换到正常路径 升级提示: · 在升级CTCCL新版本之前,请确保已停止该环境所有的训练任务,升级方式和安装方法相同。 · 需要升级集群中所有节点的CTCCL版本,新版本和旧版本不兼容在同个训练任务中使用。
        来自:
        帮助文档
        训推服务
        用户指南
        训推加速
        CTCCL优化套件
        CTCCL简介
      • 运维指导
        本章节主要介绍队列相关问题中有关运维指导的问题。 查看DLI队列负载 场景概述 如果需要确认DLI队列的运行状态,决定是否运行更多的作业时需要查看队列负载。 操作步骤 1. 在控制台搜索“云监控服务 CES”。 2. 进入CES后,在页面左侧“云服务监控”列表中,单击“数据湖探索”。 3. 选择队列进行查看。 如何判断当前DLI队列中的作业是否有积压? 问题描述 需要查看DLI的队列中作业状态为“提交中”和“运行中”的作业数,判断当前队列中的作业是否有积压。 解决方案 可以通过“云监控服务 CES”来查看DLI队列中不同状态的作业情况,具体操作步骤如下: 1. 在控制台搜索“云监控服务 CES”,进入云监控服务控制台。 2. 在左侧导航栏选择“云服务监控 > 数据湖探索”,进入到云服务监控页面。 3. 在云服务监控页面,“名称”列对应队列名称,单击对应队列名称,进入到队列监控页面。 4. 在队列监控页面,分别查看以下指标查看当前队列的作业运行情况。 a.“提交中作业数”:展示当前队列中状态为“提交中”的作业数量。 b.“运行中作业数”:展示当前队列中状态为“运行中”的作业数量。 c.“已完成作业数”:展示当前队列中状态为“已成功”的作业数量。 如何将老版本的Spark队列切换成通用型队列 当前DLI服务包括“SQL队列”和“通用队列”两种队列类型。 其中,“SQL队列”用于运行SQL作业,“通用队列”兼容老版本的Spark队列,用于运行Spark作业和Flink作业。 通过以下步骤,可以将老版本的“Spark队列”转换为新的“通用队列”。 1. 重新购买“通用队列”。 2. 将在旧的“Spark队列”中的作业迁移到新的“通用型队列”中,即在提交Spark作业时指定新的队列。 3. 释放旧的“Spark队列”,即删除或退订队列。
        来自:
        帮助文档
        数据湖探索
        常见问题
        操作类
        队列相关问题
        运维指导
      • 计费FAQ
        已购买的弹性云主机是否可以更换资源池? 很抱歉,已有的弹性云主机不支持更换资源池。 操作系统、镜像是否需要单独付费? 目前操作系统、公共镜像及私有镜像无需另外付费。 按量购买时,购买页面上并没有显示价格,如何获知价格? 您可以点击“价格计算器”查看。 已购买的弹性云主机是否支持升级? 目前弹性云主机所有资源池支持CPU、内存、云硬盘、带宽升级。 CPU和内存升级必须以套餐的形式升级,必须符合天翼云套餐搭配。 云主机到期后忘记续费了,会出现什么后果? 如果您忘记续费,到期当天您的云主机将无法操作。建议您尽快进行手动续费,否则到期15天后数据就会清除。 退订云主机前有哪些限制条件? 如果您需要退订云主机,需要符合天翼云7天无理由退款条件。 订购时间超过7天,以及订购7天内但执行过升级、续订操作的主机均不能执行退订操作。 由于退订操作会导致资源回收和清理,云主机上的数据将无法恢复,因此,在退订前请您做好数据备份工作。 按量订购的云主机不支持退订操作。 包年包月订购的弹性云主机如何退订? 登录天翼云控制台,勾选需要退订的云主机,选择”更多退订“,在页面中点击确认,将完成退订订单提交,弹出提示信息,并可在用户中心的订单管理页面看到该退订订单,此时订单状态为“待审核”。 待审核通过后,天翼云将回收资源,并返还现金支付的金额。此时,订单状态将变为“工单完成”,在云主机列表里也无法看见该主机。
        来自:
        帮助文档
        弹性云主机 ECS
        购买指南
        计费FAQ
      • 功能清单
        功能名称 功能描述 发布地域 当前VBS提供了操作存储库、备份及备份策略的API。 详细的提供了API的描述、语法、参数说明及示例等内容。 全部 在创建备份之前,需要首先创建至少一个存储库。存储库用来存放备份,结合底层对象存储,为用户实现高度可靠的数据保护。 创建存储库时,用户可以根据需要将数据冗余策略配置为单AZ存储或多AZ存储。 ● 创建存储库:全部 ● 数据冗余策略:华东1/华北2 当存储库在使用过程中容量不足时,可以选择扩容存储库来满足更大的备份容量需求。 全部 当存储库的计费模式为包年包月,则在存储库到期前,如需要继续使用该存储库,可以续订存储库。 全部 标签通常用于标识云服务资源,可通过标签管理功能对存储库进行分类和筛选。 全部 若不再使用某个存储库中的云硬盘备份,即可退订存储库。 在退订之前,需先清空存储库中所有的备份副本,才可退订成功。退订存储库后,将停止收取费用。 全部 通过备份策略,可以按照预设的策略任务对已绑定的云硬盘资源进行周期性自动备份,确保云硬盘的安全性,能够在云硬盘损坏或数据丢失时快速恢复数据,保证业务稳定运行。 创建备份策略后: ● 可在备份策略中绑定或解绑存储库,将备份策略关联或取消关联到目标存储库中。 ● 可在备份策略中绑定或解绑云硬盘,将备份策略关联或取消关联到目标云硬盘上。 全部 云硬盘备份提供两种配置方式,立即备份和自动备份。 ● 立即备份:即一次性备份,手动创建一次性备份任务。 ● 自动备份:即周期性备份,通过创建备份策略并绑定云硬盘的方式创建的周期性备份任务。 全部 任务列表用于展示当前执行任务的类型、状态、完成情况等信息。 任务类型包括备份任务、删除任务和恢复任务。 华东1 当云硬盘发生故障,或者由于人为误操作导致云硬盘数据丢失时,可以使用已经创建成功的备份恢复数据至源云硬盘。 恢复云硬盘数据之后备份时间点的数据将覆盖云硬盘数据,一旦执行,无法回退,请谨慎操作。 全部 可以使用备份创建新的云硬盘,新建的云硬盘在初始状态就具有备份中的数据。 使用备份创建的新云硬盘的可用区、磁盘类型、容量支持修改,其他参数如磁盘模式、磁盘加密默认和源云硬盘一致,无法修改。 全部 云硬盘备份支持的监控指标,包括存储库使用量、存储库使用率。同时也支持创建事件告警,包括备份副本创建失败、云硬盘备份策略调度失败。 ● 指标监控:华东1/重庆2/武汉4/上海7/内蒙6/芜湖2/九江/贵州3/拉萨3/杭州2/南京3/南京4/南京5/海口2/昆明2/广州6/华北2/华南2/佛山3/郴州2/北京5/成都4/乌鲁木齐7 ● 事件监控:上海36/华东1/南昌5/杭州7/南宁23/长沙42/武汉41/华南2/西安7/庆阳2/西南1/西南2贵州/青岛20/华北2/郑州5/太原4/呼和浩特3 包年包月采用包周期预付费的计费模式,按订单的购买周期计费,适用于可预估资源使用周期的场景。 如果您需要更灵活的计费方式,按照存储库的实际使用时长计费,您可以将存储的计费方式转为按需付费。 西安7/太原4/华东1/华北2/郑州5/西南2贵州/长沙42/华南2/杭州7/武汉41/庆阳2/呼和浩特3/乌鲁木齐7 云硬盘备份通过云硬盘与对象存储服务的结合,将云硬盘的数据备份到对象存储中,高度保障用户的备份数据安全。 针对加密云硬盘的备份,备份数据自动加密保存。 南宁23/华东1/南昌5/华南2/西安7/太原4/华北2/郑州5/西南2贵州/杭州7/庆阳2/呼和浩特3/长沙42 统一身份认证(Identity and Access Management,简称IAM)服务,是供用户进行权限管理的基础服务,可以保证安全的控制云服务和资源的访问及操作权限。 IAM主要功能包括:精细的权限管理、安全访问、通过用户组批量管理用户权限、委托其他帐号管理资源等。 全部
        来自:
        帮助文档
        云硬盘备份 VBS
        产品简介
        功能清单
      • 概览
        本页介绍分布式融合数据库HTAP的监控概览信息。 监控视图概览简介 管理控制台提供的云监控,可以对分布式融合数据库HTAP的运行状态进行日常监控。您可以通过管理控制台,直观地查看分布式融合数据库HTAP的各项监控指标。 进入管理控制台的实例列表页面,找到对应实例,点击操作 > 监控,进入该实例的监控页面。 前提条件 分布式融合数据库HTAP实例正常运行。故障、删除状态的实例,无法在监控中查看其监控指标。当分布式融合数据库HTAP实例再次启动或恢复后,即可正常查看。 概览 仪表盘 通过仪表盘界面,可以查看管理节点的Leader、分布式融合数据库HTAP版本、磁盘使用情况、实例健康状态、存储节点状态、数据分片(Region)状态、连接数、TPS、QPS等统计信息。 健康总览 通过健康总览界面,可以查看该实例的各节点的健康状态。 集群曲线图 在集群曲线图界面,输入要查看的时间区间,可以查看实例的Cluster连接数、TPS、QPS、Storage大小(实例数据的占用空间)、Cluster Store Status(存储节点的状态)、Cluster Region Status(数据分片的状态)的监控曲线。
        来自:
        帮助文档
        分布式融合数据库HTAP
        用户指南
        监控视图
        概览
      • 1
      • ...
      • 93
      • 94
      • 95
      • 96
      • 97
      • ...
      • 554
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      云聚517 · 好价翼起拼

      爆款云主机低至25.83元/年,参与拼团享更多优惠,拼成得额外优惠券

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      聚力AI赋能 天翼云大模型专项

      大模型特惠专区·Token Plan 轻享包低至9.9元起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      企业出海解决方案

      助力您的业务扬帆出海,通达全球!

      天翼云信创专区

      “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      产品推荐

      弹性云主机 ECS

      物理机 DPS

      训推服务

      公共算力服务

      星辰TokenHub运营服务平台

      应用托管

      科研助手

      一站式智算服务平台

      知识库问答

      推荐文档

      查询告警

      FTP访问

      常见问题

      生产者

      策略管理

      如何选择云主机?

      扩容磁盘

      网页防篡改卸载

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 息壤智算平台
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号