活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 聚力AI赋能 天翼云大模型专项 大模型特惠专区·Token Plan 轻享包低至9.9元起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 企业出海解决方案 NEW 助力您的业务扬帆出海,通达全球!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
Token服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V4-Flash
  • GLM-5.1
  • Qwen3.5-122B-A10B
  • DeepSeek-V3.2(旗舰版)
  • GLM-5(正式版)
智算一体机
  • 智算一体机
智能体引擎
  • 智能体引擎
智算安全专区
  • 大模型安全评测
  • 大模型安全护栏
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      事件总线EventBridge_相关内容
      • 版本概述
        本章节主要介绍翼MapReduce服务产品的发行版本号格式、发行版本更新记录和发行版本说明。 产品发行版本号格式 翼MapReduce采用类似翼MRa.b.c格式的版本号,详细说明如下: a代表版本有较大的变动。 b代表版本中一些组件的变动。 c代表版本中Bug修复,可以向前兼容;以及一些较小的变动。 翼MR每个版本的捆绑软件和集群创建说明 捆绑软件:每个翼MapReduce发行版本上捆绑的软件和软件版本都是固定的。 集群创建:创建某一个发行版本的翼MapReduce集群后,该集群版本不会自动升级。 翼MR2.21.0 发布时间:2026年3月 新增Sqoop、Lance、Paimon组件服务 新增云监控事件监控能力 升级Doris版本至2.1.11版、升级Hive至翼MR优化版3.1.3、升级DolphinScheduler至3.3.2 自V2.21版本起,停止创建云搜索集群(涉及Elasticsearch、Logstash、Kibana服务),停止提供JeekeFS服务,存量集群可继续使用相关能力 组件 版本 Doris 2.1.11 HBase 2.4.12 HDFS 3.3.3 Hive 3.1.3(优化版) Kafka 2.8.1 Kerberos 1.18.2 Kyuubi 1.8.2 OpenLDAP 2.4.50 Ranger 2.2.0 Spark 3.4.1 Trino 440 YARN 3.3.3 ZooKeeper 3.7.1 Flink 1.18.1 Knox 1.6.1 Iceberg 1.6.1 Hudi 0.15.0 Tez 0.10.1 Flume 1.11.0 KafkaUI 1.2.0 SeaTunnel 2.3.7 Pushgateway 1.6.2 TezUI 0.10.1 Amoro 0.7.1 Hue 4.11.0 DolphinScheduler 3.3.2 Sqoop 1.4.7 Lance 0.38.0 Paimon 1.0.1
        来自:
        帮助文档
        翼MapReduce
        产品介绍
        版本概述
      • 购买基础版
        本节介绍托管检测与响应服务(原生版)基础版服务内容及购买操作步骤。 购买须知 基础版提供安全托管服务,当前针对开通云等保专区、安全专区及托管服务组件的用户提供,请您提前配置相关安全产品。 购买服务后,我们的安全服务工程师将会联系您,并在整个服务周期内与您保持沟通。 一个账号仅支持购买一个基础版实例。 服务内容 持续监控安全产品(WAF、云防火墙、主机安全)事件。 提供漏洞感知,监控云主机、应用、服务脆弱性。 提供威胁情报,持续检测恶意IP、恶意域名、APT攻击等。 提供安全产品策略检查和调优,确保检测和防护效果。 提供安全产品售后管家,专人快速解决问题。 不支持退订操作。 操作步骤 1. 登录托管检测与响应服务(原生版)控制台。 2. 点击基础版“立即购买”按钮,跳转到基础版订购页面。 3. 在“产品配置”模块配置“托管云主机数”,根据客户需要托管的云主机台数,选择对应的数量。 4. 确认配置信息无误后,阅读并接受相关服务协议、服务等级协议,单击右下角“立即购买”,跳转到支付页面。 5. 在“支付”页面,请选择付款方式进行付款。 6. 付款成功后,返回托管检测与响应服务(原生版)控制台,查看订购状态。 7. 订购完成后,24小时内,我们的服务经理会与您联系。
        来自:
        帮助文档
        托管检测与响应服务(原生版)
        用户指南
        基础版
        购买基础版
      • 操作类
        为什么第一次请求会比较慢? 因为函数是冷启动的,所以如果有初始化或者函数中有第一次执行比较耗时的操作,第一次请求会比较慢,后面接着的请求就会很快,因为此时容器还没有销毁。如果间隔一分钟没有请求,容器就会销毁。 如何读取函数的请求头? 函数入口中的第一个参数里面包含请求头,您可以打印函数执行结果,从而获取想要的字段。 如下图,event为函数入口的第一个参数,headers为请求头。 为什么函数实际使用内存大于预估内存,甚至触发OOM? 1. 函数调用过程中,运行时会解析和缓存传入的event事件, 这部分操作会消耗额外的内存。 2. 函数调用结束后,回收的内存首先会放入内部内存池中,并不一定归还给操作系统,导致内存偏高,在高并发场景下这种现象会更加明显。 函数内存超限返回“runtime memory limit exceeded”,如何查看内存占用大小? 请在函数请求返回界面查看。 查看oom内存大小 如何定位自定义镜像执行失败“CrashLoopBackOff”的原因? 若出现“CrashLoopBackOff: The application inside the container keeps crashing”错误字段: 1. 请根据页面提示信息诊断原因。 查看执行结果 2. 请参见开发HTTP函数示例章节进行容器镜像自验证。 3. 排查镜像是否为x86 linux架构,目前仅支持x86 linux架构镜像。
        来自:
        帮助文档
        函数工作流
        常见问题
        操作类
      • HTTP函数
        本章介绍函数工作流HTTP函数的概述和优势。 概述 FunctionGraph支持两种函数类型,事件函数和HTTP函数。HTTP函数专注于优化 Web 服务场景,用户可以直接发送 HTTP 请求到 URL 触发函数执行,从而使用自己的Web服务。HTTP函数只允许创建APIG/APIC的触发器类型,其他触发器不支持。 说明 1. HTTP函数支持HTTP/1.1协议。 2. 在函数创建页面,新增一种函数类型“HTTP函数”。 3. HTTP函数执行入口需要设置为bootstrap,用户直接写启动命令,端口统一开放成8000。 4. 若运行用户JAR包,bootstrap中建议增加JVM参数Dfile.encodingutf8,否则可能会出现中文乱码。 优势 丰富的框架支持 您可以使用常见的Web 框架(例如 Nodejs Web 框架:Express、Koa)编写 Web 函数,也可以将您本地的 Web 框架服务以极小的改造量快速迁移上云。 减少请求处理环节 函数可以直接接收并处理HTTP 请求,API 网关不再需要做 json 格式转换,减少请求处理环节,提升 Web 服务性能。 编写体验舒适化 HTTP函数的编写体验更贴近编写原生 Web 服务,可以使用 Node.js 原生接口,保证和本地开发服务体验一致。 限制 HTTP函数只允许创建APIG共享版、APIG专享版、APIC的触发器类型,其他触发器不支持。 同一个函数支持绑定多个API触发器,但所有 API 都必须在一个APIG服务下。 针对http函数,用户的http响应体不超过6M。 不支持长时运行和异步调用,不支持重试。
        来自:
        帮助文档
        函数工作流
        产品简介
        函数类型
        HTTP函数
      • 提升登录口令安全最佳实践
        本文将介绍如何提升登录口令的安全性以及常见服务器登录口令的修改方法。 弱口令是指密码强度低,或广泛被使用,容易被攻击者破解的口令。弱口令一旦被攻击者获取,可用来直接登录系统,读取甚至修改网站代码,使用弱口令将使得系统及服务面临非常大的风险。建议您为服务器设置复杂的登录口令,并定期提升登录口令的安全性。 背景信息 出现弱口令的原因 : 设置的自动生成密码的方式过于简单,与弱口令检测的密码库相重合。 将同一密码用于多个子账号,会被系统判定为弱密码。 使用弱口令可能会造成以下危害 : 对于个人用户而言,如果使用了弱口令,可能会被猜解或被破解工具破解,从而泄露个人隐私信息,甚至造成财产损失。 对于系统管理员而言,如果使用了弱口令,可能会导致整个系统被攻击、数据库信息被窃取、业务系统瘫痪,造成所有用户信息的泄露和巨大的经济损失,甚至可能引发群体性的网络安全危害事件。 检测弱口令 及时检测弱口令能够有效防止系统被攻击和信息泄露,可以提高系统的安全性。 态势感知基线检查功能,可以检查您的IAM账号/主机中是否存在高危弱口令风险。如果在您的IAM账号/主机中检测出了高危弱口令风险,建议您及时修改弱口令。具体方法请参见本文的修改常见的IAM账号弱口令、修改常见的服务器弱口令、提升口令安全IAM账号、提升口令安全主机。
        来自:
        帮助文档
        态势感知(专业版)
        最佳实践
        提升登录口令安全最佳实践
      • 产品类
        漏洞扫描服务有哪些扫描 IP? 安全体检产品需要对互联网IP进行安全扫描。如果您的服务器有相关防护措施或者限制了访问的IP,为保证体检的正常进行,建议您将以下IP地址加到白名单。 安全体检产品扫描出口IP为:117.88.244.141。 安全体检的结果应该如何处理? 一旦安全体检完成,组织需要采取以下步骤: 1. 优先级排序:根据漏洞的严重程度和潜在影响为每个漏洞分配优先级。 2. 制定计划:创建一个具体的行动计划来修复漏洞,包括分配资源和设定修复期限。 3. 修复验证:修复后重新进行扫描,确保漏洞已被成功解决。 4. 持续监测:建立持续的安全监测机制,确保系统的安全状态。 安全体检会对业务运营产生影响吗? 大多数现代的安全体检工具设计为尽量减少对业务运营的影响。然而,在进行安全体检时,仍然需要注意以下几点: 计划时间:选择非高峰时段进行体检,以减少对正常业务的影响。 性能考量:确保工具的使用不会导致网络拥塞或系统性能下降。 资源调配:合理安排人力资源,确保体检过程中出现问题时能够迅速响应。 安全体检可以完全防止数据泄露吗? 虽然安全体检是预防数据泄露的重要步骤之一,但它并不能保证完全防止数据泄露。这是因为新的漏洞可能随时出现,而且安全体检工具只能检测到已知的安全问题。为了进一步增强安全性,组织还需要结合其他安全措施,例如员工培训、访问控制策略、加密技术和事件响应计划等。
        来自:
        帮助文档
        安全体检
        常见问题
        产品类
      • 报表预览
        报表类型 报表说明 塞班斯报表 从计划与组织、确保和控制、评估风险、综合情况四个方面,全面分析数据库安全状况。 综合分析报告 从SQL语句执行情况分析、会话连接分析、风险事件分析和SQL性能分析四个角度对数据库态势进行综合分析。 性能分析报表 从性能变化趋势、性能最差的数据库/SID、耗时最久的SQL、性能最差的SQL、执行最多的SQL五个方面对数据库的性能做出分析。 等保参考分析报表 紧密切合当前信息安全技术网络安全等级保护评测要求GB/T 284482019(以下简称“等级保护2.0”)的大趋势,针对等级保护2.0里关注的安全审计中的入侵防范、恶意代码监测、安全审计监控等进行针对性的分析和展示。 语句分析类报表 从SQL语句分析、失败语句分析、SQL语句变化趋势、审计趋势分析和执行次数最多SQL模板分析5个维度分析和展示当前语句的信息。 会话分析类报表 包含会话数量变化趋势分析、新增会话分析、并发会话分析和失败会话分析4张报表。 告警分析类报表 从告警变化趋势分析、告警来源分析、告警对象分析、规则命中分析4个维度分析当前告警的情况。 其他报表 主要分为:表分析、客户端工具分析、数据库账号分析、数据库/SID分析、数据库访问来源IP分析、数据库/实例名访问分析6张报表。 自定义报表 用户自定义创建的报表,有关自定义报表的详细信息请参考
        来自:
        帮助文档
        数据库审计
        用户指南
        报表中心
        报表预览
      • 功能特性
        功能名称 功能描述 资产管理 提供对资产运行状态、资产指纹、资产分类情况的查看,同时可按照主机、容器的维度查看或管理目标服务器,实现主机全量资产的统一可视管理。 包含资产概览、资产指纹管理、主机管理、容器管理功能。 漏洞管理 提供检测Linux软件漏洞、Windows系统漏洞和WebCMS漏洞、应用漏洞,帮助用户识别潜在风险。 基线检查 扫描主机系统和关键软件含有风险的配置、弱口令、口令复杂度策略。 支持的检测基线包含云安全实践和等保合规基线,且可自定义选择检测的子基线项。 支持对检测风险的修复和验证。 容器镜像安全 扫描镜像仓库与正在运行的容器镜像,发现镜像中的漏洞、恶意文件等并给出修复建议,帮助用户得到一个安全的镜像。 应用防护 为运行时的应用提供安全防御。您无需修改应用程序文件,只需将探针注入到应用程序,即可为应用提供强大的安全防护能力。 当前只支持操作系统为Linux的服务器,且仅支持Java应用接入。 网页防篡改 实时发现并拦截篡改指定目录下文件的行为,并快速获取备份的合法文件恢复被篡改的文件,从而保护网站的网页、电子文档、图片等文件不被黑客篡改和破坏。 勒索病毒防护 支持已知勒索病毒检测能力,支持自定义勒索备份恢复策略。 文件完整性管理 检查Linux系统、应用程序软件和其他组件的文件,帮助用户及时发现发生了可能遭受攻击的更改。 主机入侵检测 识别并阻止入侵主机的行为,实时检测主机内部的风险异变,检测并查杀主机中的恶意程序,识别主机中的网站后门等。 容器入侵检测 实时监控容器节点运行状态,发现挖矿、勒索等恶意程序,发现违反容器安全策略的进程运行和文件修改,以及容器逃逸等行为并给出解决方案。 白名单管理 可以通过加入告警白名单避免大量告警误报的发生,提升安全事件告警质量。将当前告警事件加入告警白名单后,当再次发生相同的告警时不再进行告警。 策略管理 提供灵活的策略管理能力,可以根据需要自定义安全检测规则,并可以为不同的主机组或主机/容器应用不同的策略,以满足不同应用场景的主机/容器安全需求。 安全配置 提供配置常用登录地、常用登录IP、SSH登录IP白名单,恶意程序自动隔离查杀功能,满足不同应用场景的主机/容器安全需求。
        来自:
        帮助文档
        企业主机安全
        产品介绍
        功能特性
      • 超卖调度与离线应用CPU压制
        BE 应用可使用 02 共 3 个核心 2. 增加 LS 应用负载 当 LS 应用 CPU 负载增加时(例如从 10% 增加到 90% ) 系统自动调整 BE 应用的 cpuset 范围 3. 观察 BE 应用 CPU 被压制 plaintext $ kubectl n koordinatorsystem exec ti bash $ cat /hostcgroup/cpuset/kubepods.slice/kubepodsbesteffort.slice/cpuset.cpus 01 BE 应用被压制,CPU 使用范围减少为 01 共 2 个核心 常见问题 超卖调度相关 为什么开启超卖后,某些 BE 应用仍无法调度? 1、检查是否正确绑定了 BE 优先级。 2、确认混部调度器已启用并正常运行。 3、节点可能存在其他资源(如内存)限制。 超卖比例如何确定? 1、统根据历史负载和配置自动计算合理的超卖比例。 2、默认配置已适用于大多数场景,一般无需手动调整。 CPU 压制相关 BE 应用被压制后性能下降严重? 1、属于正常现象,BE 应用设计为弹性使用剩余资源。 2、可通过调整优先级或增加节点资源来改善。 如何确认 CPU 压制是否生效? 1、通过观察 BE 应用的 cpuset 范围变化。 2、查看 BE 应用的实际 CPU 使用率是否下降。 3、监控混部系统的事件日志。 注意 资源超卖可能导致节点负载增加,建议合理规划应用部署。 CPU 压制机制会影响 BE 应用性能,不建议将关键业务设置为 BE 优先级。 混部系统会保证 BE 应用最低资源保障,避免完全饿死。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        调度
        在离线混部
        超卖调度与离线应用CPU压制
      • 云原生监控插件
        组件说明 安装云原生监控插件创建的Kubernetes资源,全部都创建在monitoring命名空间下。 表 云原生监控插件的组件列表 容器组件 说明 资源类型 prometheusOperator (负载名称:prometheusoperator) 根据Prometheus类型的自定义资源(Custom Resource Definition / CRDs)来部署和管理Prometheus Server,同时监控这些自定义资源事件的变化来做相应的处理,是整个系统的控制中心。 Deployment prometheus (使用本地数据存储的负载名称:prometheusserver;不使用本地数据存储的负载名称:prometheuslightweight) Prometheus监控系统的核心组件,用于指标采集和存储,支持将指标上报到AOM或第三方监控平台,开启本地存储后可将指标数据保存在本地PVC中。 StatefulSet alertmanager (负载名称:alertmanageralertmanager) 插件的告警中心,主要用于接收Prometheus发送的告警并通过去重、分组、分发等能力管理告警信息。 StatefulSet thanosSidecar 仅在高可用模式下部署。和prometheusserver运行在同一个Pod中,用于实现普罗指标数据的持久化存储。 Container thanosQuery 仅在高可用模式下部署。PromQL查询的入口,能够对来自Store或Prometheus的相同指标进行重复数据删除。 Deployment adapter (负载名称:custommetricsapiserver) 将自定义指标聚合到原生的Kubernetes API Server。 Deployment kubeStateMetrics (负载名称:kubestatemetrics) 将Prometheus的metrics数据格式转换成K8s API接口能识别的格式。kubestatemetrics组件在默认配置下,不采集K8s资源的所有labels和annotation。如需采集,请参考[采集Pod所有labels和annotations](
        来自:
        帮助文档
        云容器引擎
        用户指南
        插件管理
        云原生监控插件
      • 专业模型训练-昇腾环境
        配置任务 两种方法均会进入任务创建页面。 启动命令: python cd /work/share/demo/MindSpeedLLM; bash examples/llama2/pretrainllama27bmultinodes.sh; 注意 此模式下,不要打开容错训练开关! 完成所有配置后,点击“提交”按钮,您的训练任务将被创建并开始执行。 监控任务 若训练任务成功拉起,任务状态变为运行中。 点击日志按钮,可实时查看所有节点的训练日志,支持筛选单节点日志或查看全量日志,方便定位问题。 若启动命令存在错误,任务无法正常启动,可以进入“事件”页面查看错误原因是否存在资源不足、网络超时等提示。或者检查日志中,根据具体报错情况,调整模型配置或训练脚本,并重新提交任务。 结语 通过本文档的实践操作,用户可以熟练掌握平台模型训练的关键流程,包括环境搭建、代码管理、镜像管理、数据处理、权重转换以及单机和多机训练等核心任务。在实际操作中,如果遇到任何问题,可以结合日志信息和平台提供的工具进行排查和优化。随着平台功能的持续升级和优化,相信在未来,用户将能够更加高效地完成大模型的训练任务,并不断探索和应用前沿的人工智能技术。
        来自:
        帮助文档
        一站式智算服务平台
        最佳实践
        专业模型训练-昇腾环境
      • 专业模型训练-昇腾环境
        3.配置任务 两种方法均会进入任务创建页面。 启动命令: plaintext cd /work/share/demo/MindSpeedLLM; bash examples/llama2/pretrainllama27bmultinodes.sh; 注意 此模式下,不要打开容错训练开关! 完成所有配置后,点击“提交”按钮,您的训练任务将被创建并开始执行。 4.监控任务 若训练任务成功拉起,任务状态变为运行中。 点击日志按钮,可实时查看所有节点的训练日志,支持筛选单节点日志或查看全量日志,方便定位问题。 若启动命令存在错误,任务无法正常启动,可以进入“事件”页面查看错误原因是否存在资源不足、网络超时等提示。或者检查日志中,根据具体报错情况,调整模型配置或训练脚本,并重新提交任务。 结语 通过本文档的实践操作,用户可以熟练掌握平台模型训练的关键流程,包括环境搭建、代码管理、镜像管理、数据处理、权重转换以及单机和多机训练等核心任务。在实际操作中,如果遇到任何问题,可以结合日志信息和平台提供的工具进行排查和优化。随着平台功能的持续升级和优化,相信在未来,用户将能够更加高效地完成大模型的训练任务,并不断探索和应用前沿的人工智能技术。
        来自:
        帮助文档
        训推服务
        最佳实践
        专业模型训练-昇腾环境
      • 与其它云服务的关系
        功能 相关服务 云服务器和文件系统归属于同一项目下,用于挂载共享路径实现数据共享。 弹性云主机(Elastic Cloud Server,ECS) VPC为弹性云主机构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户云中资源的安全性,简化用户的网络部署。 云服务器无法访问不在同一VPC下的文件系统,使用弹性文件服务时需将文件系统和云服务器归属于同一VPC下。 虚拟私有云(Virtual Private Cloud,VPC) IAM是支撑企业级自助的云端资源管理系统,具有用户身份管理和访问控制的功能。当企业存在多用户访问弹性文件服务时,可以使用IAM新建用户,以及控制这些用户帐号对企业名下资源具有的操作权限。 统一身份认证服务(Identity and Access Management, IAM) 文件系统的加密功能依赖于密钥管理服务。您可以使用密钥管理服务提供的密钥来加密文件系统,从而提升文件系统中数据的安全性。 数据加密服务(Data Encryption Workshop, DEW)的密钥管理KMS功能 当用户开通了弹性文件服务后,无需额外安装其他插件,即可在云监控查看对应服务的性能指标,包括读带宽、写带宽和读写带宽等。 云监控服务(Cloud Eye Service) 为用户提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。通过云审计服务,您可以记录与弹性文件服务相关的操作事件,便于日后的查询、审计和回溯。 云审计服务(Cloud Trace Service,CTS)
        来自:
        帮助文档
        弹性文件服务 SFS
        产品简介
        与其它云服务的关系
      • JMeter工程使用类
        上传第三方jar包时需要注意什么? 请确保第三方jar包在本地JMeter工作时,位于JMeter根目录/lib/ext下。 请确保使用第三方jar包的脚本在本地可以正常运行。 导入文件的名称长度上限为64字节(含后缀),大小上限为10M。 上传CSV文件时需要注意什么? 请确保CSV在本地JMeter可以正常取值,使用。 请上传CSV(UTF8无BOM)格式的文件,不要上传其他格式,可能存在编码读取问题。 上传自定义安装包时需注意什么? 必须是从apache官网直接下载得到的ZIP压缩包,或目录结构与从apache直接下载得到的ZIP压缩包完全一致的压缩包。 JMeter版本必须是5.25.4。 如果ZIP包中包含第三方插件,上传后第三方插件也会对性能测试的JMeter引擎产生影响。 为什么用JMeter软件设置请求头contenttype为utf8,请求返回正常,使用性能测试请求返回乱码? 性能测试需要在请求头contenttype中指定utf8编码,且删除跟业务无关的请求头字段(如“AcceptEncoding: gzip”等)。 JMeter报告,为什么日志的事件日志中出现JMeter超时? JMeter测试任务在长时间(10分钟)没有产生任何采样数据,工具会强制终止。 JMeter用例调试时,为什么在很短的时间(小于5秒)内失败,页面无数据? 请检查JMeter测试计划所需的变量文件以及第三方jar包是否全部上传。
        来自:
        帮助文档
        性能测试PTS
        常见问题
        JMeter工程使用类
      • 弹性存储最佳实践
        背景信息 在云原生和大数据成本优化的大趋势下,分布式消息Kafka引入弹性存储功能,正是为了应对传统架构中“高成本、难扩展、利用率低”的痛点。通过弹性存储能力,实现存储成本的显著下降和资源的按需使用,使企业能够以更经济的方式处理海量流数据。弹性存储能力核心优势如下: 显著降低存储成本 对象存储的费用通常仅为超高IO云盘费用的7.5%~10%,并且冷数据存储在远端只需存储一个副本。通过将不常访问的历史数据迁移到对象存储,企业可以在保留更长数据保留周期的同时,大幅降低总体拥有成本。 实现按需使用、弹性扩展 弹性存储解耦了计算与存储。对象存储具备近乎无限的扩展能力,无需预先规划容量。用户可以根据业务需求灵活延长数据保留时间(如从 7 天延长至 90 天甚至更久),而无需担心存储瓶颈。 提升资源利用率与运维效率 本地磁盘资源专注于服务高频访问的热数据,提升集群性能;冷数据由对象存储承载,减轻 Kafka服务端的存储压力。同时,减少了因存储不足而频繁扩容的运维负担。 支持更多数据应用场景 低成本的长期数据保留使得 Kafka 不仅可用于实时流处理,还可作为事件溯源、数据湖入湖前的缓冲层、合规归档等场景的统一数据平台,提升数据价值。
        来自:
        帮助文档
        分布式消息服务Kafka
        最佳实践
        弹性存储最佳实践
      • 域名DNS异常排查
        本文为您介绍Serverless集群的域名DNS解析异常常见问题。 域名解析失败,如何定位处理? 问题现象:域名解析失败。 可能原因:域名解析失败可能有如下4种情况:Serverless集群内是否已经安装了coreDNS插件、coreDNS服务是否正常、集群使用的安全组是否已经放开udp规则、pod容器到coreDNS网络是否连通。 解决方法: 1. 判断当前的异常原因。 2. 检查业务Pod的DNS配置,是否已经接入CoreDNS。 3. 检查CoreDNS Pod运行状态进行诊断。 4. 检查CoreDNS运行日志进行诊断。 5. 检查pod是否能访问CoreDNS。 6. 检查安全组是否已经放开UDP协议的53端口。 CoreDNS插件已安装但是在pod内部无法解析 kubernetes等service域名 问题现象:在容器内部是可以ping通coredns pod的ip,查看容器内部的/etc/resolv.conf也是正常的,但是nslookup kubernetes就是不能解析出ip。 可能原因:在nslookup kubernetes的时候,容器先通过/etc/resolv.conf中的nameserver写的coredns的serviceIP找到dns服务器,再通过dns服务器解析内部service域名。首先得确保coredns的service正常工作,使用curl 10.96.0.10:9153测试coredns的service明显不通。 解决方法:需要排查kubeproxy是否正常。 安装CoreDNS插件后并没有修改容器内部的/etc/resolv.conf 问题现象:查看随便一个pod,进入容器内部查看cat /etc/resolv.conf,发现并没有被coredns修改。 可能原因:可能是CoreDNS工作不正常。检查coredns pod是否有事件报错健康检查失败。 解决方法:检查coredns日志是否正常,重启coreDNS。
        来自:
        帮助文档
        云容器引擎 Serverless版
        常见问题
        域名DNS异常排查
      • 告警降噪
        本章主要介绍告警降噪 概述 AOM提供告警降噪功能,您可以在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。该功能目前仅支持广州4资源池。 告警降噪功能分为分组、去重、抑制、静默四部分。 去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 告警降噪流程图 分组、抑制、静默需手动创建规则,创建方式见下方文档说明。 说明 此模块只作用于消息通知部分,所有触发的告警和事件都可在告警、事件页面查看。 创建分组规则 使用分组规则,您可以从告警中筛选出满足条件的告警子集,然后按分组条件对告警子集分组,告警触发时同组告警会被汇聚在一起发送一条通知。 当分组条件设为“告警级别等于紧急”时,表示系统会先根据分组条件从告警中过滤出满足告警级别为紧急的告警子集,然后根据通知合并方式对告警子集合并,合并后的告警可以关联行动规则,触发告警通知。 分组流程 创建分组规则 用户最多可创建100条分组规则。 步骤 1 在左侧导航栏中选择“告警 > 告警降噪”。 步骤 2 在“分组规则”页签下单击 “创建分组规则”,设置规则名称、分组条件等信息。 创建分组规则 分组规则参数说明 类别 参数名称 说明 ::: 规则名称 分组规则的名称。名称只能由大小写字母、数字、下划线组成,且不能以下划线开头和结尾,最多不能超过100个字符。 描述 分组规则的描述。最多不能超过1024个字符。 告警分组规则 分组条件 根据设置的条件对告警过滤,筛选出符合分组条件的告警,并为符合分组条件的告警设置告警行动规则。 分组条件最多可设置10个并行条件,每个并行条件下最多可设置10个串行条件,每个并行条件下可设置一个或多个告警行动规则。 多个串行条件之间是“和”的关系,多个并行条件之间是“或”的关系,告警需满足其中一个并行条件下的所有的串行条件。 例如一个并行条件下设置了三个串行条件,依次为“告警级别等于紧急”、“告警级别等于重要”、“告警源等于AOM”,则告警级别为紧急和重要的AOM告警会被筛选出来,并根据设置的告警行动规则执行告警通知操作。 告警合并规则 通知合并方式 根据指定字段对分组后的告警合并,合并在一组的告警会被汇聚在一起发送一条通知。 合并方式包括: 按告警源 按告警源 + 严重度 按告警源 + 所有标签 告警合并规则 首次等待 首次创建告警合并集合后,等待多久发送第一次告警通知。通常设置为秒级别的时间,便于告警合并后再发送,避免告警风暴。 取值范围:0s10min,推荐设置为 15s。 告警合并规则 变化等待 合并集合内的告警数据发生变化后,等待多久发送告警通知。通常设置为分钟级别的时间。如果您需要尽快收到告警通知,也可设置为秒级时间。 此处的变化是指新增告警或告警状态改变。 取值范围:5s30min,推荐设置为60s。 告警合并规则 重复等待 合并集合内的告警数据重复后,等待多久发送告警通知。通常设置为小时级别的时间。 此处的重复是指无新增告警和状态变化,仅其他属性(例如标题、内容等)改变。 取值范围:0min15day,推荐设置为1h。 步骤 3 设置完成后,单击“立即创建”,完成分组规则创建。
        来自:
      • 使用HPA+CA实现工作负载和节点联动弹性伸缩
        观察弹性伸缩过程 首先查看CCE集群中刚才新建的节点池情况,初始状态节点池中有1个节点。 说明 本实践中的压测、工作负载和节点等相关指标值仅为参考示例。 查看HPA策略,因为之前已进行过连通性测试,可以看到目标负载busyphp的指标(CPU使用率)为16% 通过如下命令开始打压,其中{ip:port}为负载的访问地址,可以在busyphp负载的详情页中查询。 wrk t10 c1000 d1200s 说明 上述压测命令中的并发数、连接数、持续时间仅为示例,请根据节点规格等参数进行合理的设置。 观察工作负载的伸缩过程。 可以看到第二行开始负载的CPU使用率达到99%,超过了目标值,此时触发了工作负载的弹性伸缩,将负载扩容为2个副本/Pod,随后的几分钟内,CPU使用并未下降,这是因为虽然工作负载进行了扩容,但新创建的Pod并不一定创建成功,一般是因为资源不足Pod处于Pending状态,此时需同步进行节点扩容。 如下图所示,工作负载的副本数已通过动态扩容达到8,但因为没有充足的vCPU和内存资源,会被k8s集群标记为“实例调度失败”。 之后工作负载CPU使用率一直保持在99%以上,工作负载持续进行扩容,副本数从2个扩容到4个,再扩容到8个最后扩容至12个。观察负载和HPA策略的详情,从事件中可以看到负载的扩容的过程和策略生效的时间线,如下所示。 与此同时,查看节点池中的节点数量,发现在刚才工作负载扩容的同时,节点数量也扩容了。在CCE控制台中可以看到伸缩历史,节点数量会根据CA及autoscaler策略,通过判断Pod的Pending状态进行扩容。 另外还可以看到CA策略也执行了一次,当集群中CPU分配率大于70%,将节点池中节点数量从2扩容到了3。 本例中节点扩容机制具体是这样: •Pod数量变为4后,由于没有资源,Pod处于Pending状态,触发了autoscaler默认的扩容策略,将节点数量进行增加。 •同时因为集群中CPU分配率大于70%,触发了CA策略,从而将节点数增加一个,从控制台上伸缩历史可以看出来。根据分配率扩容,可以保证集群一直处于资源充足的状态。 本例中启动压测时设置了压力持续时间,因此当压测工具停止打压后,观察负载Pod数量。CPU负载快速下降,工作负载开始缩容,工作负载副本数也快速由12缩容至2个,最后恢复到1个副本。 观察负载和HPA策略的详情,从事件中可以看到负载的缩容过程和策略生效的时间线,在控制台中同样可以看到HPA策略生效历史。 再继续观察,会看到节点池中的节点数量会被不断缩容。 最终,节点池节点数量将稳定在2。 这里节点没有继续被缩容,是因为节点池中这两个节点都存在namespace为kubesystem的Pod(且不是DaemonSets创建的Pod)。关于节点在什么情况下不会被缩容请参考CCE帮助中心 > 弹性伸缩 > 集群/节点弹性伸缩 > 节点伸缩原理。 如需继续缩容,可编辑节点池,手动减少其节点数量。
        来自:
        帮助文档
        云容器引擎
        最佳实践
        集群
        使用HPA+CA实现工作负载和节点联动弹性伸缩
      • 使用限制
        分类 对象 使用限制 仪表盘 仪表盘 1个区域中最多可创建50个仪表盘。 仪表盘 仪表盘中的图表 1个仪表盘中最多可添加20个图表。 仪表盘 仪表盘中图表可选资源、阈值规则、组件或主机的个数 1个曲线图中最多可添加100个资源,且资源可跨集群选择。 1个数字图只能添加1个资源。 1个阈值状态图表最多可添加10个阈值规则。 1个主机状态图表最多可添加10个主机。 1个组件状态图表最多可添加10个组件。 指标 指标数据 基础规格:指标数据最多保存7天。 指标 指标项 资源(例如,集群、组件、主机等)被删除后,其关联的指标项在数据库中最多保存30天。 指标 维度 每个指标的维度最多为20个。 指标 指标查询接口 单次最大可同时查询20个指标。 指标 统计周期 最大统计周期为1小时。 指标 单次查询返回指标数据 单个指标单次查询最大返回1440个数据点。 指标 上报自定义指标 单次请求数据最大不能超过40KB。 指标 应用指标 JOB指标 每个主机的容器个数超过1000个时,ICAgent将停止采集该主机应用指标,并发送“ICAgent停止采集应用指标”告警(告警ID:34105)。 每个主机的容器个数缩减到1000个以内时,ICAgent将恢复该主机应用指标采集,并清除“ICAgent停止采集应用指标”告警 。 由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 指标 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1% CPU。为保证采集可靠性,单节点上运行的容器个数应小于1000。 阈值规则 阈值规则 一个项目下最多可创建1000个阈值规则。 阈值规则 发送通知可选择主题数 每个阈值规则最多可选择5个主题。 日志 单条日志大小 每条日志最大10KB,超出后ICAgent将不会采集该条日志,即该条日志会被丢弃 日志 日志流量 每个租户在每个Region的日志流量不能超过10MB/s。如果超过10MB/s,则可能导致日志丢失。 日志 历史日志 历史日志存储空间免费额度为500MB 日志 日志文件 只支持采集文本类型日志文件,不支持采集其他类型日志文件(例如二进制文件)。 日志 每个通过卷挂载日志的路径下,ICAgent最多采集20个日志文件。 日志 每个ICAgent最多采集1000个容器标准输出日志文件,容器标准输出日志只支持jsonfile类型。 日志 采集日志文件的资源消耗 日志文件采集采集时消耗的资源和日志量、文件个数及网络带宽、backend服务处理能力等多种因素强相关。 日志 日志丢失 采集器使用多种机制保证日志采集的可靠性,尽可能保证数据不丢失,但在如下场景可能导致日志丢失。 日志文件未使用CCE提供的logPolicy轮转策略。 日志文件轮转速度过快,如1秒轮转一次。 系统安全设置或syslog自身原因导致无法转发日志。 容器运行时间过短,例如小于30s。 单节点总日志产生速度过快,超过了单节点网络发送带宽或日志采集速度,建议单节点总日志产生速度<5M/s。 日志 日志丢弃 当单行日志长度超过10240字节时,此行会被丢弃。 日志 日志重复 当采集器被重启后,重启时间点附近可能会产生一定的数据重复。 日志 统计规则 一个日志桶下最多可创建5条统计规则。 告警中心 告警 您最多可查询最近30天的告警。 告警中心 事件 您最多可查询最近30天的事件。
        来自:
        帮助文档
        应用运维管理
        产品简介
        使用限制
      • 实例概述
        本章节主要介绍物理机实例概述。 实例概述 物理机实例即您创建的一台物理机服务器。不同实例类型提供不同的计算能力、存储空间、网络性能,您可以基于业务需求选择不同类型的实例。当天翼云向您交付一个实例时,您将获得这台服务器完整的控制权限,包括开机、关机、带内管理等。 实例类型 目前天翼云提供的物理机CPU,均为x86架构,根据业务需求选购不同配置的物理机服务器。 x86 V4实例(CPU采用Intel Broadwell架构) x86 V5实例(CPU采用Intel Skylake架构) x86 V6实例(CPU采用Intel Cascade Lake架构) 其他说明 基于本地盘的物理机服务器,系统盘默认RAID 1,数据盘默认直通盘。如果需要更改数据盘RAID配置,可以联系管理员变更。系统盘RAID不支持变配。 常用的RAID级别 RAID 0 RAID 0又称为条带化(Stripe)或分条(Striping),代表了所有RAID级别中最高的存储性能。RAID 0提高存储性能的原理是把连续的数据分散到多个硬盘上存取。这样,当系统有数据请求时就可以在多个硬盘上并行执行,每个硬盘执行属于它自己的那部分数据请求。这种数据上的并行操作可以充分利用总线的带宽,显著提高硬盘整体读写性能。但由于其没有数据冗余,无法保护数据的安全性,只能适用于I/O要求高,但数据安全性要求低的场合。 图1 RAID 0数据存储原理 RAID 1 RAID 1又称镜像(Mirror或Mirroring),即每个工作盘都有一个镜像盘,每次写数据时必须同时写入镜像盘,读数据时同时从工作盘和镜像盘读出。当更换故障盘后,数据可以重构,恢复工作盘正确数据。RAID 1可靠性高,但其有效容量减小到总容量一半以下,因此常用于对容错要求较高的应用场合,如财政、金融等领域。 图2 RAID 1数据存储原理 RAID 5 RAID 5是一种存储性能、数据安全和存储成本兼顾的存储解决方案。为保障存储数据的可靠性,采用循环冗余校验方式,并将校验数据分散存储在RAID的各成员盘上。当RAID的某个成员盘出现故障时,通过其他成员盘上的数据可以重新构建故障硬盘上的数据。RAID 5既适用于大数据量的操作,也适用于各种小数据的事务处理,是一种快速、大容量和容错分布合理的磁盘阵列。 图3 RAID 5数据存储原理 其中,PA为A0、A1和A2的奇偶校验信息,PB为B0、B1和B2的奇偶校验信息,以此类推。 RAID 6 在RAID 5的基础上,RAID 6增加了第二个独立的奇偶校验信息块。两个独立的奇偶系统使用不同的算法,数据的可靠性非常高,即使两块磁盘同时失效也不会影响数据的使用。但RAID 6需要分配给奇偶校验信息更大的磁盘空间,相对于RAID 5有更大的“写损失”,因此“写性能”较差。 图4 RAID 6数据存储原理 其中,PA为A0、A1和A2的第一个校验信息块,QA为第二个校验信息块;PB为B0、B1和B2的第一个校验信息块,QB为第二个校验信息块,以此类推。 RAID 10 RAID 10是将镜像和条带进行两级组合的RAID级别,即RAID 0+RAID 1的组合形式,第一级是RAID 1,第二级是RAID 0。RAID 10是存储性能和数据安全兼顾的方案。它在提供与RAID 1一样的数据安全保障的同时,也提供了与RAID 0近似的存储性能。 图5 RAID 10数据存储原理 RAID 50 RAID 50被称为镜像阵列条带,即RAID 5 + RAID 0的组合形式。像RAID 0一样,数据被分区成条带,在同一时间内向多块磁盘写入;像RAID 5一样,也是以数据的校验位来保证数据的安全,且校验条带均匀分布在各个磁盘上。 图6 RAID 50数据存储原理 其中,PA为A0、A1和A2的奇偶校验信息,PB为B0、B1和B2的奇偶校验信息,以此类推。 RAID 60 RAID 60同RAID 50类似,数据采用镜像阵列条带分布方式,即RAID 6 + RAID 0的组合形式。像RAID 0一样,数据被分区成条带,在同一时间内向多块磁盘写入;像RAID 6一样,以两个数据校验模块来保证数据的安全,且校验条带均匀分布在各个磁盘上。 图7 RAID 60数据存储原理 其中,PA为A0、A1和A2的第一个校验信息块,QA为第二个校验信息块;PB为B0、B1和B2的第一个校验信息块,QB为第二个校验信息块,以此类推。
        来自:
        帮助文档
        物理机 DPS
        产品简介
        实例规格说明
        实例概述
      • MySQL主备复制原理
        本文介绍了MySQL主备复制原理。 MySQL主备复制原理说明 MySQL复制是基于复制源服务器在其二进制日志(下称binlog)中跟踪对其数据库的所有更改(增、删、改等)。binlog作为从服务器启动那一刻起修改数据库结构或内容(数据)的所有事件的书面记录。通常,SELECT不记录语句是因为它们既不修改数据库结构也不修改数据本身。 连接到源的每个副本都请求binlog的副本。也就是说,它从源中拉取数据,而不是源将数据推送到副本。副本还执行它接收到的binlog中的事件。这具有重复原始更改的效果,就像它们在源上所做的一样。创建表或修改其结构,并根据最初在源上所做的更改插入、删除和更新数据。 因为每个副本都是独立的,所以来自源的binlog的更改的重播独立发生在连接到源的每个副本上。此外,因为每个副本仅通过从源请求它来接收binlog的副本,副本能够按照自己的节奏读取和更新数据库的副本,并且可以随意启动和停止复制过程而不会影响在源端或副本端更新到最新数据库状态的能力。 主备复制流程说明: 1. 主库节点中每当有数据进行DML操作时,事务会按照binlog格式将DML操作以event的形式写入到主节点的binlog中。DML包括:Insert, Delete, Update等。 2. 备库节点连接主库节点时,有多少个备节点就会创建多少个binlog dump线程。 3. 当主库节点的binlog发生变化时,binlog dump线程会通知备节点(若多个备库则通知所有备节点),并将相应的binlog内容推送给备库节点。 4. 备库节点的I/O thread进程收到binlog后,会将日志包含的内容写入本地中继日志(下称relay log)。 5. 备库节点的SQL thread会读取I/O thread写入的relay log并根据relay log中记录的event内容生成相应的DML语句,回放入备库中,完成整个主备复制流程。 主要源码说明: / The pseudo code to compute SecondsBehindMaster: 信息来自源码sql/rplreplica.cc if (SQL thread is running) //如果SQL thread启动 { if (SQL thread processed all the available relay log) ​ //当IO thread拉取主库binlog的位置和SQL thread应用的relay log相对于主库binlog的位置相等时 ​ { ​ if (IO thread is running) ​ //如果IO thread启动,设置延迟为0 ​ print 0; ​ else ​ //如果未启动,设置延迟为NULL ​ print NULL; ​ } ​ else ​ //如果SQL thread没有应用完所有IO thread写入的event时,需要计算SecondsBehindMaster ​ compute SecondsBehindMaster; } else ​ //如果SQL thread也没启动,则设置为NULL ​ print NULL; / SecondsBehindMaster的计算公式:SecondsBehindMaster time(0) lastmastertimestamp clockdiffwithmaster。 公式变量解释: 1. time(0):当前备库节点服务器的系统时间。 2. lastmastertimestamp:备库节点在回放relay log中的event过程中的计算和更新,该变量可理解为备库节点SQL thread处理中事务在主库节点中的执行时间。 3. clockdiffwithmaster:备库节点的系统时间和主库节点服务器系统时间的差值,一般为0。如果主备节点系统时间不一致,那计算出的备库节点复制时延会不准确。 综上所述:SecondsBehindMaster 当前备库节点服务器的系统时间 备库节点SQL线程处理中事务在主库节点的执行时间 备库节点的系统时间和主库节点服务器系统时间的差值。
        来自:
        帮助文档
        关系数据库MySQL版
        故障排查
        主备复制
        MySQL主备复制原理
      • 基于微服务治理中心实现无损上线与无损下线
        验证无损上线 打开appa和appb的无损上下线开关。 在当前启动的应用基础上,再启动一个appb,此时appb总共有两个节点,新启动的appb会发生延迟注册和服务预热两个事件。 延迟注册: 由上图所示,服务在启动后120秒后,才完成服务注册,达到延迟注册的效果。 服务预热: 由上图所示,服务在启动后,先是小流量预热,随后逐渐达到最大流量。 验证无损下线 微服务治理中心的无损下线主要是通过主动通知注册中心下线和主动通知消费者来实现。在应用下线时,需要使用kill 15 pid命令,通过下线钩子函数通知应用即将下线,达到无损下线的效果。如果采用kill 9 pid,将会是有损下线。 当前部署一个appa,两个appb。在有流量访问的情况下,下线appb其中一个节点。 使用kill 9 pid下线。 执行kill命令后,查看微服务治理中心控制台,此时出现了异常调用。 使用kill 15 pid下线。 执行kill命令后,查看微服务治理中心控制台,此时没有出现异常调用。 通过以上实践,证明了微服务治理中心可以实现无损下线。
        来自:
        帮助文档
        微服务引擎
        最佳实践
        基于微服务治理中心实现无损上线与无损下线
      • 应用详情
        应用详情页面,可查看应用的 QPS 数据、TOP 列表等信息。本文介绍应用详情页面的主要功能。 前提条件 已部署应用。 已开通 MSE 微服务治理。 说明 使用 MSE 时会产生单独费用。MSE 的计费说明,请参见微服务治理计费概述。 功能入口 1. 登录 CAE控制台,在左侧导航栏选择应用管理 > 应用列表,然后单击目标应用名称。 2. 在左侧导航栏,选择微服务治理 > 应用详情。 功能介绍 应用详情 页面会动态刷新,展示错误请求数、总请求数、平均响应时间、应用基础信息和服务列表等数据。 说明 应用详情中涉及到的错误请求数、总请求数、平均响应时间,都是应用入口接口的统计,不包括应用内部方法调用的统计。 性能指标 :统计应用QPS 、RT(ms)等数据。 请求数据 :展示近 5 分钟通过实例数、通过请求数和拒绝请求数的走势图。 RT(ms):响应时间,单位为 ms。展示了近 5 分钟响应时间的走势图。 TOP列表及系统资源指标 :包括通过QPS TOP 、防护拒绝 QPS TOP 、平均 RT TOP 接口列表。 TOP 接口列表会动态刷新,通过 QPS TOP页签下接口按照通过 QPS 排序,其他页签下接口按照各自的字段排序。 单击接口名称或该区域右上角的查看全部 ,进入WEB 服务 页签,查看所有接口的 QPS 数据(秒级) 、RT 数据(ms) 、最大并发(秒级) 和事件的详细信息。 单击目标接口操作 列的流控 或隔离,可为该资源配置相应规则。
        来自:
        帮助文档
        云应用引擎
        用户指南
        微服务治理
        应用详情
      • CTCCL环境变量设置
        CTCCL兼容NCCL环境变量,常使用的CTCCL环境变量如下,推荐值仅供参考,具体使用以实际情况为准。 环境变量 描述 推荐值 NCCLIBGIDINDEX RDMA协议使用的GID 3 NCCLIBHCA RDMA通信使用的网卡 mlx5 NCCLIBTIMEOUT RDMA连接超时时间,合理配置可以提高训练任务的容错能力 22 NCCLSOCKETIFNAME 使用该端口建立连接 bond0 NCCLDEBUG 日志级别 INFO/WARN NCCLDEBUGSUBSYS 打印的info信息子类别,设置为REPORT可以输出网卡对带宽信息(若带宽统计功能开启)、事件上报日志(若上报功能开启) REPORT NCCLIBQPSPERCONNECTION 单连接使用的并行传输QP数量。若要使用QP切换与重传功能,请不要配置为1 8 NCCLNETPLUGIN 配置网络插件 none CTCCLERRREPORT 默认为0,配置为1后,CTCCL内部发现异常上报云骁平台。使用云骁智能平台拉起训练任务时,该功能默认打开。 0 CTCCLBWREPORT 默认为0,配置为1后,统计网卡对集合通信带宽信息并记录在日志中,日常正常训练不建议开启。使用云骁智能平台拉起训练任务时,该功能默认打开。 0 CTCCLIBLBUPLINK 默认为0,RoCE组网下,推荐配置为leaf交换机上行链路数。IB环境下请配置为0,或不做配置。 IB:0 RoCE:上行链路数 CTCCLQPTIMEREPORT 默认为0,要使用慢节点检测工具时请配置为1,必须搭配慢节点检测工具套件使用。 0
        来自:
        帮助文档
        训推服务
        用户指南
        训推加速
        CTCCL优化套件
        CTCCL环境变量设置
      • 任务查看
        字段 取值样例 说明 转码任务ID xsshanghai1eaced67e24d64874ae74fe9e7fdbxxxe 转码任务的ID。每一次转码任务都分配一个专属的转码任务ID。 点播实例 主实例 该转码任务分配的点播实例。 源视频信息 天翼云测试视频.mp4 该转码任务的输入原视频地址信息。点击【复制地址】可以复制当前原视频的URL地址。 转码任务状态 该转码任务的执行状态。 执行成功 代表该任务已经执行完成,且无异常报错。 执行失败 代表该任务已经执行,但由于某种原因未按照预期完成,需要用户确认。点击旁边的叹号图标可以查看上一次失败的原因。 执行中 代表该任务正在执行中。 重试中 代表该任务之前已经完成,由用户主动触发重新执行,且处于正在执行的状态。 回调任务状态 成功 代表该任务已按照预设的回调地址发送成功。 失败 代表该任务按照预设回调地址发送失败。 未回调 代表该任务未发送回调信息。可能的原因为发起任务时未指定回调地址。 创建时间 20230515 16:08:38 该任务的创建时间。 完成时间 20230515 16:08:38 该任务的完成时间。如该任务处于“执行中”状态,则不展示。 操作 该转码任务可执行的操作。 查看模板 点击【查看模板】可查看当前转码任务配置的转码参数。 回调重试 对于已经完成任务并曾经发起回调的事件,可以通过该功能补发回调通知,以实现用户侧业务逻辑闭环。当该任务在发起时未设置回调地址时,不显示本入口。 任务重试 对于已经完成的转码任务,可以通过该功能重新执行该任务。
        来自:
        帮助文档
        云点播
        用户指南
        点播模式
        任务查看
      • 安全
        故障恢复 弹性云主机通过云服务备份实现故障恢复,当云主机或磁盘出现故障或者人为错误导致数据误删时,可以自助快速恢复数据。 什么是云服务备份 云服务备份(CTCloud Backup and Recovery,CBR)可以为云主机、云硬盘提供简单易用的备份服务,当发生病毒入侵、人为误删除、软硬件故障等事件时,可将数据恢复到任意备份点。 云服务备份保障用户数据的安全性和正确性,确保业务安全。 云主机备份与云硬盘备份 目前弹性云主机备份可以通过“云主机备份”和“云硬盘备份”功能实现: 云主机备份(推荐):如果是对弹性云主机中的所有云硬盘(系统盘和数据盘)进行备份,推荐使用云主机备份功能,同时对所有云硬盘进行备份,避免因备份创建时间差带来的数据不一致问题。 云硬盘备份:如果对指定的单个或多个云硬盘(系统盘或数据盘)进行备份,推荐使用云硬盘备份功能,在保证数据安全的同时降低备份成本。 表 云主机备份与云硬盘备份 对比维度 云主机备份 云硬盘备份 备份/恢复对象 服务器中的所有云硬盘(系统盘和数据盘)。 指定的单个或多个磁盘(系统盘或数据盘)。 推荐场景 需要对整个云主机进行保护。 系统盘没有个人数据,因而只需要对部分的数据盘进行备份。 优势 备份的同一个服务器下的所有磁盘数据具有一致性,即同时对所有云硬盘进行备份,不存在因备份创建时间差带来的数据不一致问题。 保证数据安全的同时降低备份成本。
        来自:
        帮助文档
        弹性云主机 ECS
        产品介绍
        安全
      • 重保支持
        本文介绍了客户支持计划重保支持的适用场景。 重保支持是针对客户在重要活动或事件期间对其关键业务提供短期的重保服务。 一级重保服务: 适用于客户业务系统具有实时要求高、业务连续性高或有明显业务高峰期的应用场景。重保服务期间故障响应及处理标准按最高级别处理,一级重保期间停止业务所使用资源的所有变更,同时停止资源池可能影响业务系统的一切割接操作(包括自动和手动)。考虑到一级重保影响范围广且实施所需资源多,客户至少提前14天提交重保申请,一个重保周期原则上最长不超过3天。 二级重保服务: 适用于客户业务系统实时性和业务连续性要求较高的应用场景。重保服务期间故障响应及处理标准提高一个级别,重保期间停止业务所使用资源的手工变更(故障修复除外),同时停止资源池可能影响业务系统的手动割接操作。考虑到二级重保影响范围较广且实施所需资源较多,客户至少7天提交申请,一个重保周期原则上最长不超过5天。 三级重保服务: 提供基本资源池级保障,并按客户要求提供保障服务。考虑到三级重保影响及所需资源,客户至少提前5天申请重保服务,一个重保周期原则上最长不超过10天。 支持计划级别 服务权益说明 :: 轻量级 最多1次三级重保 商业级 最多4次三级重保 企业级 最多4次重保,包含限定次数的一级、二级或三级重保
        来自:
        帮助文档
        客户支持计划
        产品简介
        服务内容
        重保支持
      • 开启勒索防护并处理勒索告警
        section244e8eee26e831b6)。 自动隔离:检测出勒索病毒文件后产生告警,并自动隔离病毒文件。 说明 自动隔离后,若出现误报,可在告警列表中对文件进行恢复。 指定防护目录 根据用户的特定防护场景,可自定义创建勒索诱饵文件。 设置生效范围 自定义选择需要开启诱饵防护的服务器。 5. 配置完成后,单击“确认”。 处理勒索告警 启用诱饵防护后,请及时处置勒索告警事件,及时发现并隔离阻断勒索病毒运行、扩散。 说明 若您在配置病毒处理方式时,选择了“自动隔离”的方式则会自动隔离文件,无需手动处理告警 若您选择了“手动处理”的方式,请参考下文进行操作。 1. 登录服务器安全卫士(原生版)控制台。 2. 在左侧导航栏,选择“入侵检测 > 告警中心”,进入告警中心页面。 3. 选择告警名称为“可疑勒索行为”的告警,单击告警操作列的“详情”,可在弹出的对话框中查看告警详情。 4. 核对告警信息,单击弹窗下方的“处理”按钮,根据业务实际需求处理告警。 5. 在弹出的告警处理对话框中,选择告警处理方式。 忽略:选择忽略,告警状态将变为已忽略。 加白名单:选择加白名单,系统会为您自动填写加白规则,若自动生成的加白规则不满足您也可以自定义加白规则。 文件隔离:选择隔离文件,告警状态将变为已隔离。 文件删除:选择删除文件,删除文件可能影响业务系统正常运行,文件被删除后无法恢复,请谨慎操作。
        来自:
        帮助文档
        服务器安全卫士(原生版)
        最佳实践
        云上勒索病毒防护实践
        防护措施
        开启勒索防护并处理勒索告警
      • 扫描组件
        本节介绍如何扫描集群内的组件,发现组件上的漏洞。 操作步骤 1. 登录容器安全卫士控制台。 2. 在左侧导航栏选择“集群安全 > 组件漏洞”,进入组件漏洞页面。 3. 单击组件漏洞列表右上角的“开始扫描”,对集群内的组件进行扫描,获取全部组件漏洞信息。 4. 扫描完成后,即可查看组件漏洞列表。 组件漏洞列表内,支持按照“组件名称”“组件版本”“集群名称”“集群版本”“命名空间”“节点名称”“危险级别”进行筛选查询。 组件列表参数说明: 参数 说明 组件名称 Kubernetes集群中的组件主要有以下几类: 控制平面组件(Control Plane Components):控制平面的组件对集群做出全局决策(比如调度),以及检测和响应集群事件。包括kubeapiserver、etcd、kubescheduler、kubecontrollermanager、cloudcontrollermanager等组件。 Node组件:节点组件在每个节点上运行,维护运行的Pod并提供Kubernetes运行环境。包括kubelet、kubeproxy等组件。 容器运行时(Container Runtime)组件:容器运行时组件是负责运行容器的软件。 第三方插件:插件使用Kubernetes资源(DaemonSet、Deployment等)实现集群功能。因为这些插件提供集群级别的功能,插件中命名空间域的资源属于kubesystem命名空间。包括DNS、Dashboard等组件。 组件版本 组件的版本。 集群名称 组件所属集群的名称。 集群版本 组件所属集群的版本。 命名空间 组件所属命名空间。 节点名称 组件运行所在节点的名称。 漏洞数量 显示组件内存在的不同风险等级的漏洞数量统计信息。 最后一次扫描时间 该组件最后一次被扫描的时间。
        来自:
        帮助文档
        容器安全卫士
        用户指南
        集群安全
        组件漏洞
        扫描组件
      • 资源池管理
        管理资源池权限 资源池对应两种角色:管理者与使用者。 资源池管理者对当前资源池拥有所有操作权限,包括资源池的查看、使用与配置修改等。只有资源池管理者(默认为资源池创建者和创建者所属租户)才能对资源池进行权限管理。 资源池使用者可以查询当前资源池内详细信息、资源池的操作历史、代理列表、使用资源池中的代理机执行任务。 步骤 1 在资源池列表中找到目标资源池,单击资源池名称,进入“代理列表”页面。 步骤 2 单击“权限管理”页签,可以对资源池权限进行管理。 权限管理 单击管理者后的“添加”,在下拉列表中选择用户,单击,可以将所选用户设置为资源池管理者。 单击开关,可以配置授权租户下所有用户为资源池使用者。 单击项目后的“添加”,在下拉列表中选择项目名称,单击,可以将所选项目下的所有成员设置为资源池使用者。 查看资源池操作历史 步骤 1 在资源池列表中找到目标资源池,单击资源池名称,进入“代理列表”页面。 步骤 2 单击“历史操作”页签,可以查看资源池的历史操作详情。 设置消息通知 步骤 1 在资源池列表中找到目标资源池,单击资源池名称,进入“代理列表”页面。 步骤 2 单击“通知”页签,可以根据需要为资源池配置事件通知。 可以配置触发以下操作时,向权限管理者发送服务动态或邮件。 创建代理 删除代理 停用代理 启用代理 下线代理 上线代理
        来自:
        帮助文档
        软件开发生产线CodeArts
        用户指南
        租户设置
        资源池管理
      • 费用常见问题
        本文为您介绍了短信服务常见的计费问题,帮助您快速解答疑问。 短信服务是否可以先审核模板再进行购买? 可以。申请模板和签名不收费,只有产生短信发送的事件才会计费,订购需要联系相应客户经理。 重复短信推送是免费吗还是额外收费?重复短信后台有记录吗? 短信只要下发成功就会收费,可以在发送量统计中查看短信下发情况。 短信套餐包区分模板吗? 短信套餐包不区分模板,发送验证码和通知类消息均可,按照短信发送量计算额度。 套餐包有短信条数,接口正常,但是为什么短信发送失败提示余额不足等信息? 请核实账户余额是否为0,目前套餐包短信条数有剩余但是需要账户余额为0以上才可以正常调用短信接口,可以在官网费用中心充值一定金额解决此问题,例如10元钱。 套餐包剩余资源支持退款吗? 套餐包购买立即生效,到期后自动失效。 套餐包购买后可通过费用中心开票,开票金额为购买套餐包实际支付金额,如已开具发票的套餐包需要退款,需先退发票。 必须确保天翼云账户余额不小于0,如天翼云帐户停机会影响套餐包正常使用。 已使用套餐包剩余资源不支持退订 使用第三方支付方式结算且支付时间在3个月内的订单,退款将自动原路返还。使用天翼云账户余额结算或支付时间在36个月的订单,退款将退回至天翼云账户余额。
        来自:
        帮助文档
        云通信-短信(文档停止维护)
        常见问题
        费用常见问题
      • 集群管理
        标签管理 标签是集群的标识,为集群添加标签,可以方便用户识别和管理拥有的集群资源。翼MR服务通过与标签管理服务(TMS)关联,可以让拥有大量云资源的用户,通过给云资源打标签,快速查找具有同一标签属性的云资源,进行统一检视、修改、删除等管理操作,方便用户对大数据集群及其他相关云资源的统一管理。 您可以在创建集群时添加标签,也可以在集群创建完成后,在集群的详情页添加标签,您最多可以给集群添加10个标签。 集群运维 告警管理 翼MR可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时翼MR也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。 翼MR还可以与消息通知服务(SMN)的消息服务系统对接,将告警信息通过短信或者邮件等形式推送给用户。 补丁管理 翼MR集群支持补丁操作,会及时发布开源大数据组件的补丁。用户能够在翼MR集群管理页面上查看到运行集群相关的补丁发布信息,包括其修复问题的详细说明及影响场景,客户可以根据业务运行情况自行选择是否安装补丁。补丁安装过程是一键式操作,无需人工干预,通过滚动安装,补丁升级不会停止业务,保障用户集群长期可用。 翼MR服务可以展示详细的补丁安装过程,补丁管理也支持补丁的卸载和失败回滚。 说明 翼MR 3.x及之后版本暂不支持在管理控制台执行补丁管理操作。
        来自:
        帮助文档
        翼MapReduce
        产品简介
        功能特性
        集群管理
      • 1
      • ...
      • 41
      • 42
      • 43
      • 44
      • 45
      • ...
      • 54
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      聚力AI赋能 天翼云大模型专项

      大模型特惠专区·Token Plan 轻享包低至9.9元起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      企业出海解决方案

      助力您的业务扬帆出海,通达全球!

      天翼云信创专区

      “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      弹性伸缩服务 AS

      弹性高性能计算 E-HPC

      天翼云CTyunOS系统

      公共算力服务

      科研助手

      一站式智算服务平台

      智算一体机

      人脸实名认证

      营业执照识别

      推荐文档

      文档下载

      查询告警

      查看监控指标

      云课堂 第十八课:天翼云函数服务之“Hello,World!”

      专属云扩容

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 息壤智算平台
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号