活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 聚力AI赋能 天翼云大模型专项 大模型特惠专区·Token Plan 轻享包低至9.9元起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V4-Flash
  • GLM-5.1
  • Qwen3.5-122B-A10B
  • DeepSeek-V3.2(旗舰版)
  • GLM-5(正式版)
  • Qwen3.5-397B-A17B(正式版)
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      全站加速_相关内容
      • 卸载CUDA工具包
        本文为您介绍天翼云GPU云主机中CUDA工具包的卸载操作方法,适用于通过.run安装包(Linux)或本地安装程序(Windows)部署的CUDA。 前置说明 卸载CUDA工具包前,请先完成cuDNN的卸载操作,再按本文步骤执行CUDA卸载。 关闭所有使用CUDA的程序。 在Linux操作系统中卸载CUDA 如果您在创建GPU云主机时自动安装了CUDA工具包,则CUDA的卸载需要选择通过run安装包的卸载方式。以Driver 550.90.07、CUDA 12.4.1为例,具体操作如下所示。 1. 执行官方卸载脚本 针对通过.run安装包部署的CUDA 12.4.1,因该版本run包不支持uninstall命令行参数,需通过CUDA安装目录下的专属卸载脚本完成卸载。 plaintext sudo /usr/local/cuda12.4/bin/cudauninstaller silent 2. 验证卸载成功 执行验证命令 plaintext nvcc V 打印如下信息或提示"command not found”表示卸载成功。 3. 清理CUDA环境变量 查询CUDA环境变量。 plaintext 查询用户级环境变量中是否存在CUDA相关配置 grep n "/usr/local/cuda" ~/.bashrc 查询系统级环境变量中是否存在CUDA相关配置 grep n "/usr/local/cuda" /etc/profile 若查询结果有含/usr/local/cuda的行,则需清理CUDA环境变量。 plaintext
        来自:
        帮助文档
        GPU云主机
        用户指南
        驱动及工具包的安装
        手动卸载Tesla驱动、工具包及加速库
        卸载CUDA工具包
      • 升级或降级CUDA工具包
        本文为您介绍天翼云GPU云主机中CUDA工具包的升级或降级操作方法。 当现有CUDA版本不适配业务需求、安装错误版本导致GPU算力无法调用时,可通过“卸载当前版本→安装目标版本”的方式完成升降级。核心原则是确保目标CUDA版本与已安装的Tesla驱动、云主机规格、操作系统相互适配,避免出现兼容性问题。 步骤一:卸载CUDA工具包 请参见卸载CUDA工具包按步骤执行卸载操作。 步骤二:安装CUDA工具包 请参见安装CUDA工具包按步骤执行安装操作。 注意 安装前请参考Tesla驱动及相关组件版本兼容指南,确认目标CUDA版本,避免安装后出现兼容性问题。
        来自:
        帮助文档
        GPU云主机
        用户指南
        驱动及工具包的安装
        手动升级或降级Tesla驱动、工具包及加速库
        升级或降级CUDA工具包
      • 第三方组织概览
        身份源类型 创建操作文档 AD 企业微信 钉钉 飞书
        来自:
        帮助文档
        边缘安全加速平台
        公共服务
        身份管理
        第三方组织
        第三方组织概览
      • 同步任务统一验证及维护操作
        操作1:启用同步任务 同步任务创建后默认处于“停用”状态,点击操作列的【更多】【启用】按钮,在弹出的确认弹窗中点击【确认】。 操作2:停用同步任务 当同步任务需要编辑调整,或无需再同步数据时,可停用同步任务,点击操作列的【更多】【停用】按钮,在弹出的确认弹窗中点击【确认】。 操作3:编辑同步任务 当身份源配置需要调整(如修改同步策略、过滤条件、字段映射)时,可执行编辑操作(状态为“停用”),点击操作列的【编辑】按钮。 操作4:删除同步任务 当身份源无需再使用时,可执行删除操作(状态为“停用”),删除后无法恢复,点击操作列的【更多】【删除】按钮,在弹出的确认弹窗中点击【确认】。删除同步任务仅删除该同步任务的配置信息,已同步至AOne平台的用户、组织数据不会自动删除,需手动进入对应模块清理,避免数据冗余。
        来自:
        帮助文档
        边缘安全加速平台
        公共服务
        身份管理
        第三方组织
        同步身份源
        同步任务统一验证及维护操作
      • 开机自动启用AOne
        本文主要介绍开机自动启用的配置说明。 功能说明 开机自动启用(自启动)是指设备开机或用户登录系统后,应用程序或系统服务无需手动触发,即可自动在前台或后台运行的功能。该功能可提升使用效率,让常用工具、业务应用即时就绪;在企业管理场景中,还能保障安全类软件、终端管理服务持续在线,实现设备合规管控与安全防护。 开机自动启用AOne是面向企业 / 组织用户的终端管理功能,用于统一控制 PC 客户端的自动启动状态,并支持精细化权限配置,帮助管理员实现设备策略的集中管控,同时兼顾用户自主调整的灵活性。 配置说明 管理员设置 管理员可在管理后台一键设置 PC 客户端的自动启动默认状态以及用户修改权限控制。 注意 管理员设置暂未上线控制台自助配置,如有需求可联系我们。 提供相关配置: 自动启用AOne客户端:开启/关闭(控制初始化配置) 是否允许用户修改:是/否 (若是则提供可修改的用户范围(组织/用户/全部)) 1. 全局开关控制 管理员可在管理后台一键设置 PC 客户端的自动启动默认状态: 开启:所有受控 PC 客户端将默认随系统启动自动运行,无需用户手动启动。 关闭:所有受控 PC 客户端默认不会随系统启动,需用户手动打开。 该开关为全局基准策略,决定了终端的初始状态。
        来自:
        帮助文档
        边缘安全加速平台
        公共服务
        设置
        开机自动启用AOne
      • 开机自动启用AOne(1)
        本文主要介绍开机自动启用的配置说明。 功能说明 开机自动启用(自启动)是指设备开机或用户登录系统后,应用程序或系统服务无需手动触发,即可自动在前台或后台运行的功能。该功能可提升使用效率,让常用工具、业务应用即时就绪;在企业管理场景中,还能保障安全类软件、终端管理服务持续在线,实现设备合规管控与安全防护。 开机自动启用AOne是面向企业 / 组织用户的终端管理功能,用于统一控制 PC 客户端的自动启动状态,并支持精细化权限配置,帮助管理员实现设备策略的集中管控,同时兼顾用户自主调整的灵活性。 配置说明 管理员设置 管理员可在管理后台一键设置 PC 客户端的自动启动默认状态以及用户修改权限控制。 注意 管理员设置暂未上线控制台自助配置,如有需求可联系我们。 提供相关配置: 自动启用AOne客户端:开启/关闭(控制初始化配置) 是否允许用户修改:是/否 (若是则提供可修改的用户范围(组织/用户/全部)) 1. 全局开关控制 管理员可在管理后台一键设置 PC 客户端的自动启动默认状态: 开启:所有受控 PC 客户端将默认随系统启动自动运行,无需用户手动启动。 关闭:所有受控 PC 客户端默认不会随系统启动,需用户手动打开。 该开关为全局基准策略,决定了终端的初始状态。
        来自:
      • 开发者平台版本介绍
        本文介绍AOne开发者平台不同套餐版本适用的业务规模、支持的功能情况。 套餐和版本概述 天翼云AOne开发者平台支持包年包月计费模式。本文介绍不同套餐版本适用的业务规模、支持的功能情况。 AOne开发者平台的套餐版本分为:免费版(停止新购)、高级版。 适用的业务规模 下表描述了不同版本适用的业务规模。一般情况下,对于中大型规模的企业网站,推荐您选择高级版,个人开发者推荐免费版。 套餐规格 免费版(停止新购) 高级版 价格 0元/月 40元/月 适用场景 个人开发者快速上线个性化需求 中大型企业网站进行线上个性化业务上线 函数请求数 10万次 100万次 函数规格 10ms 10ms/50ms/100ms 是否支持实例预留 不支持 支持 支持超量按需付费 不支持 支持 注意 免费版订购规则调整:自 2026年4月10日起,将停止免费版的新购;自 2026年5月09日起,将停止免费版的续订、升级。
        来自:
        帮助文档
        边缘安全加速平台
        产品介绍
        产品简介
        开发者平台版本介绍
      • 查询封禁支持的国家和地区
        参数 是否必填 参数类型 说明 示例 下级对象 code 是 int 状态码 成功100000 message 是 string 信息描述 成功返回success,其他返回异常信息描述 result 否 list< object> 查询结果列表 resultsingle
        来自:
      • 抗D功能
        本文主要介绍抗D功能。 DDoS防护 支持TCP、UDP网络协议防护,如syn flood ,ack flood,空连接等,通过对数据报文的实时检测和分析,过滤畸形包、判断报文合法性、进行丢弃异常请求,进而高效阻断攻击。 CC防护 CC防护根据访问者的URL、频率、行为等访问特征,快速且智能识别CC攻击并进行拦截,在大规模CC攻击时可以避免源站资源耗尽,保证企业网站的正常访问。 访问控制 可针对IP,IP段,URI,CI,METHOD,请求地区,请求参数,请求头部,请求协议等维度进行组合,设置白名单和黑名单,对请求进行拦截和放行,保证客户网站不受未知访问。 可视化报表 提供可视化报表展示、定时报表服务,可获取攻击事件的攻击趋势图、防护带宽、攻击类型、TOP攻击IP等数据,实时掌握网站安全情况。 告警通知 可设置CC攻击、网络层攻击不同维度攻击的告警,灵活设置攻击告警的阈值、通知地址,告警内容包含攻击事件详情,让客户对攻击事件了如指掌。
        来自:
      • 流量标准资费
        流量阶梯 标准资费 (0TB, 10TB] 0.2元/GB (10TB, 50TB] 0.18元/GB (50TB, +∞) 0.15元/GB
        来自:
      • 异步处理相关函数
        项目 描述 语法 result,err ctyun.thread.run(callback, arg1, arg2, ...) 作用 创建一个线程, 异步执行lua函数。主要使用场景为异步通知远端处理结果,不阻塞正常的业务流程。 入参 callback 为lua函数,arg1,arg2,...为lua函数的参数。 返回值 创建成功返回true,失败返回false,以及错误信息err。
        来自:
      • 请求处理相关函数
        项目 描述 语法 ctyun.req.enrollheaderback(callbackfunc, ...) 作用 在收到响应头时会回调callbackfunc函数。 入参 callbackfunc: function。回调函数 ... : 回调函数的入参:其他任意类型。入参个数可以是不定的。 返回值 无。
        来自:
      • 编解码相关函数
        ctyun.decodeargs 函数信息详见下表: 项目 描述 语法 table, err ctyun.decodeargs(str, maxargs?) 作用 将URI编码的查询字符串解码为Lua表。这是ngx.encodeargs的逆函数。 入参 str:string,uri的query string。 maxargs: 可选,可用于指定从str参数解析的最大参数数量。默认情况下,最多解析100个请求参数(包括同名的参数),并丢弃额外的URI参数,以防止潜在的拒绝服务攻击。当超过限制时,它将返回第二个值,即字符串"truncated"。 这个参数可以设置为0来消除限制并处理接收到的所有请求参数。 返回值 table: 解码为Lua表。 err: 当str参数超过maxargs时,err返回"truncated"。 示例: maxima local args ctyun.decodeargs(str, 0) ctyun.unescapeuri 函数信息详见下表: 项目 描述 语法 newstr ctyun.unescapeuri(str) 作用 对uri进行反转义。 入参 str:string,已转义的uri。 返回值 newstr: 对uri反转义后的结果。 示例: haxe local newstr ctyun.unescapeuri("b%20r56+7") ctyun.escapeuri 函数信息详见下表: 项目 描述 语法 newstr ctyun.escapeuri(str,type?) 作用 对uri进行转义编码。 入参 str:string,待编码字符串。 type:可选,默认为2, 可为以下值: (1)0:将str转义为完整的URI,字符(空格)、
        来自:
      • 查询解封任务额度
        参数 类型 是否必传 名称及描述 code int 是 状态码 message string 是 描述信息 result dict 否 返回结果 result.max int 否 每日解封最大条数 result.used int 否 每日解封已使用条数 result.surplus int 否 每日解封剩余条数 result.singlecommitmax int 否 每次提交解封最大条数
        来自:
      • 图片旋转
        参数类型 取值范围 示例 顺时针旋转 仅支持90、180、270,超出范围会返回原图。 逆时针旋转 仅支持90、 180、270,超出范围会返回原图。
        来自:
      • Encoding
        本文介绍函数运行时的Encoding定义与用法。 基于 Web APIs 标准TextEncoder、TextDecoder进行设计,实现了编码器与解码器。 TextEncoder TextEncoder 接口表示一个文本解码器,一个解码器只支持一种特定文本编码。传递给构造函数的参数将会被忽略,直接创建UTF8的TextEncoder。 TextEncoder()返回一个新构造的函数,该函数生成使用UTF8编码的字节流。详细定义请参见MDN官方文档TextEncoder。 构造函数 javascript let encoder new TextEncoder() 属性 encoding DOMString 只读,编码器使用的编码类型(始终为utf8)。 方法 encode( input USVString ) Uint8Array 对输入的字符串入进行编码。 TextDecoder 解码器。详细定义请参见MDN官方文档TextDecoder。 构造函数 javascript let decoder new TextDecoder() 属性 encoding DOMString 只读,解码器使用的编码类型。 fatal boolean 只读,表示错误模式是否致命。 ignoreBOM boolean 只读,表示是否忽略字节顺序标记。 方法 decode() DOMString 对输入的字符串入进行解码。 相关参考 示例代码:HMACSHA256签名摘要
        来自:
      • 请求聚合
        本文介绍如何通过边缘函数聚合多个请求响应。 向两个URL发送GET请求,并将响应聚合为一个响应。 示例代码 javascript // 提取抓取页面的 文本内容 async function parseTitleFromHTML(response) { let htmlText await response.text() const titleStart htmlText.indexOf(' '); const titleEnd htmlText.indexOf(' ', titleStart); if (titleStart ! 1 && titleEnd ! 1) { return htmlText.substring(titleStart + ' '.length, titleEnd); } return "" } async function handleRequest() { // 同时发出两个 fetch 请求获取两个页面的 HTML const responses await Promise.all([fetch(" fetch(" // 将两个页面的 文本内容拼接起来 const results await Promise.all([ parseTitleFromHTML(responses[0]), parseTitleFromHTML(responses[1]), ]) // 将拼接后的结果返回 return new Response(results.join(" ")) } addEventListener("fetch", event > { return event.respondWith(handleRequest()) }) 示例预览 返回响应聚合内容。 相关参考 运行时API:addEventListener 运行时API:FetchEvent 运行时API:Web Standards 运行时API:Fetch 运行时API:Response
        来自:
      • SHA256签名摘要
        本文介绍如何通过边缘函数实现签名摘要。 使用HMAC和SHA0256算法签署和验证请求或者返回403。 示例代码 javascript // 准备一个 key 用于加密和解密 const encoder new TextEncoder() const secretKeyData encoder.encode("secretkey") function byteStringToUint8Array(byteString) { const ui new Uint8Array(byteString.length) for (let i 0; i { event.respondWith(handleRequest(event.request)) }) 示例预览 使用导入的secretKeyData,验证请求内容。
        来自:
      • addEventListener
        本文介绍函数运行时中的addEventListener定义与用法。 此函数定义了执行用户函数脚本的触发器。addEventListener仅支持注册一个事件监听器。当前仅支持fetch请求事件,通过注册fetch事件监听器,生成HTTP请求事件FetchEvent,进而实现对HTTP请求的处理。 定义 javascript addEventListener(type: string, listener: (event: FetchEvent) > void): void; 说明 如果注册了多个"fetch"类型的监听器,当一个监听器未调用时event.respondWith(),运行时会将事件传递给下一个已注册的监听器。 如果对某个事件进行多次调用会形成调用链条。当某个回调函数调用了respondWith函数时,调用链条会被终止,后面注册的回调函数不会再被调用。 参数 type string 事件类型,当前仅支持"fetch",后续会支持"scheduled"。 listener function 事件监听器。用于处理事件回调。 示例 javascript // 注册请求事件监听器 addEventListener("fetch", event > { // 响应客户端请求 return event.respondWith( new Response("Hello world") ) }) 相关参考 示例代码:返回 HTML 页面 示例代码:返回 JSON
        来自:
      • Web Crypto
        deriveBits() deriveBits(algorithm, baseKey, length) Promise 返回一个Promise,该Promise使用新生成的伪随机位缓冲区来实现,该缓冲区从基本密钥和作为参数给出的特定算法派生而来。它返回一个ArrayBuffer包含派生位的Promise。此方法与deriveKey()非常相似,不同之处在于deriveKey()返回一个CryptoKey对象而不是一个ArrayBuffer。本质上,deriveKey()由deriveBits()后跟importKey()(即将支持)。 参数: algorithm object:以特定算法的格式描述要使用的算法,包括任何必需的参数。 baseKey CryptoKey length int:要导出的位串的长度。 相关参考 示例代码:HMACSHA256签名摘要
        来自:
      • 错误码帮助
        本文介绍边缘函数请求过程中产生的错误码,方便问题排查。 终端用户请求错误 分类 定义 状态码 错误详情 :::: 函数错误 脚本异常:用户函数抛出JavaScript异常 500 Error Code: 1111 Function threw exception 函数错误 禁止访问网络 500 Error Code: 1113 Prohibit access to the intranet 函数错误 超出6个子请求限制 500 Error Code: 1115 Too many subrequests 函数错误 函数没有返回 response 500 Error Code: 1117 Illegal response 资源限制 用户函数超出运行时资源限制: CPU执行时长≤配置的函数规格(10ms/50ms/100ms) 内存≤ 128M 响应时长≤ 30s 500 Error Code: 1201 Exceeded resource limits 内部错误 内部错误 500 Error Code: 1301 Internal Error 函数错误 函数被禁用 500 Error Code: 1407 Function Forbidden
        来自:
      • 终端管理客户端发布记录
        发布版本 发布时间 版本描述 2.26.11 20260228 优化了一些问题,提升使用体验。 2.19.11 20250702 客户端支持外设管控、合规检测、软件管理、上网行为管控等能力。
        来自:
      • 回源超时时间设置
        参数名 说明 回源连接超时时间 指CDN回源节点与源站服务器建立连接的超时时间。如果CDN回源节点在指定的超时时间内未能与源站服务器建立连接,则会触发CDN节点重试,默认重试1次,重试失败后将与源站终止连接并返回502。默认回源连接超时时间为5s。 回源请求超时时间 指CDN回源节点与源站服务器建连成功后,向源站服务器发送请求的超时时间。如果在指定的超时时间内未接收到源站服务器响应的首包,则会触发CDN节点重试,默认重试1次,重试失败后将与源站终止连接并返回502。默认回源请求超时时间为12s。
        来自:
        帮助文档
        CDN加速
        用户指南
        域名管理
        回源配置
        回源超时时间设置
      • 安装、升级与使用CTCCL库
        5.确认是否替换成功 在训练日志中,看到日志输出对应的ctccl信息。 如:CTCCL version 0. .0(nccl2.19.4)+cuda12.2 CTCCL版本升级 对于已安装NCCL或CTCCL旧版本的情况,若要安装CTCCL新版本,请确保已停止该环境所有的训练任务,升级方式和安装方法相同。 CTCCL测试 在NVIDIA平台上,可以使用NCCLTest工具测试CTCCL的性能。 测试代码下载路径: 编译: make MPI1 MPIHOME{{MPI路径}} CUDAHOME{{CUDA路径}} NCCLHOME{{NCCL路径}} j 40 使用 mpirun 启动训练进程: mpirun allowrunasroot np 2 H IP1,IP2 x NCCLIBHCAmlx52 x NCCLIBQPSPERCONNECTION8 allreduceperf b 8 e 1G f 2 g 8
        来自:
      • Slowdetect
        组件 下载地址 ctccm ctcclprofilercomm ctcclprofilernet
        来自:
      • 断点续训加速
        故障检测时间(Min) 7.2s 故障处理耗时(Min) 231.7s, 3.86min 故障恢复耗时(Min) 458s, 7.63min CKPT加载时间(Min) 0.28min 0卡CKPT加载速度(GB/s) 0.99
        来自:
        帮助文档
        训推服务
        用户指南
        训推加速
        断点续训加速
      • CTCCL-Slowdetect简介
        CTCCLSlowdetect是天翼云自研的用于大模型训练中慢节点检测的工具套件,需配合CTCCL0.4.0及以上使用。 功能介绍 CTCCLSlowdetect1.0.0工具套件架构如图所示,包括三个模块。 · ctccm:跨节点的集中式慢节点诊断工具。部署在和所有训练任务节点网络互通的节点上,每个大模型训练任务只需部署一个ctccm服务。负责收集汇总和集中发现与定位慢节点问题。 · ctcclprofilercomm:通信域级别集合通信信息统计工具。在每个训练任务所在的节点/容器内安装ctcclprofilercomm插件,在训练任务的脚本中import相关库并调用API接口使用,负责获得训练任务的通信域任务拓扑,以及收集通信域级别的超时集合通信操作事件,提供给ctccm进行慢节点分析诊断。 · ctcclprofilernet:机间通信边缘诊断工具。在每个训练任务所在的节点/容器内部署ctcclprofilernet服务,每个训练任务节点都需要部署1个独享的ctcclprofilernet服务。负责在边缘处理与初步诊断机间通信数据。 在大模型训练任务中使用CTCCLSlowdetect1.0.0工具套件,能够实现大模型训练过程中通信原因与非通信原因的慢节点检测。在发现集群中慢节点存在时,自动化开启全量集合通信操作事件监控,进一步分析定位慢节点。
        来自:
        帮助文档
        训推服务
        用户指南
        训推加速
        慢节点检测工具套件 CTCCL-Slowdetect
        CTCCL-Slowdetect简介
      • 断点续训加速
        万卡规模国产化集群下,断点续训在5类故障下实现1分钟检测、5分钟内定位、15分钟内恢复训练。 测试数据及代码准备 数据集 数据集大小 使用模型 Wikipediaen (1M条) 9.1GB Llama270B /Llama3.1405B ● 使用预处理为MindRecord格式的Wikipediaen (1M条)数据集,上传到对象存储,并由对象存储下载到平台HPFS。 ● 测试代码在gitlab仓库下载到本地,并放置于/work/home下。 脚本和任务准备 按照下面修改run.sh脚本 ! /bin/bash huijuformers的绝对路径, 需要修改pathtohuijuformers export BASEDIR/work/data/llama29216/huijuformers 以下为平台自动注入的环境变量 yaml文件中需要修改的环境变量 export BATCHSIZE1 export EPOCHS350 export LEARNINGRATE6.e5 export DATAPARALLEL256 export MODELPARALLEL4 export PIPELINESTAGE9 模型微调相关 export FINETUNEMODELTYPEllama270bbase 合并为一个参数,与模型存放文件夹名称一致(与后端沟通过) export FINETUNINGTYPEALL export TIMETAG$(date +"%m%d%H%M") 数据相关 export DATASETPATH${BASEDIR}/data export DATASETFILEoriginaldata.json 需要修改 以下为平台后端需要自行更改后传入的环境变量 平台数据格式转换,专用数据调试时用不到 export DATASETTMPPATH${BASEDIR}/data/processeddata/${FINETUNEMODELTYPE} mkdir p ${DATASETTMPPATH} 模型输入 专业模式,平台训练时需要按照平台的挂载路径去修改这一块的变量 export CHECKPOINTDIR'' 低代码模式,微调时约定挂载为下面的路径 export CHECKPOINTDIR/work/mount/publicModel/${FINETUNEMODELTYPE}/${FINETUNEMODELTYPE} 输出文件夹路径,runmode为训练模式,如train,lora,full runmodetrain export OUTPUTDIR${BASEDIR}/output/${FINETUNEMODELTYPE}/${runmode}/${TIMETAG} export OUTPUTROOTDIR${BASEDIR}/output/${FINETUNEMODELTYPE}/${runmode} rm rf ${OUTPUTDIR}/resumerecord 获取节点IP、名称,记录至文件 echo $(hostname I awk '{print $1}'),$NODENAME >> ${BASEDIR}/output/nodes sed i '/pamlimits.so/s/^//' /etc/pam.d/sshd 启动脚本 cd ${BASEDIR}/bin/scripts apt install netcat y 微调 bash finetune.sh 预训练 export MSTOPOTIMEOUT7200 bash train.sh
        来自:
        帮助文档
        一站式智算服务平台
        用户指南
        训推加速
        断点续训加速
      • CTCCL-Slowdetect最佳实践
        本文为您介绍CTCCLSlowdetect最佳实践。 在4台A8008,每台节点有8张mlx网卡,RoCE组网,部署慢节点工具套件。其中,在4节点上容器化部署模型训练基础环境以及llama27b训练模型,在node1上容器化部署ctccm服务,并在每一台节点上容器化部署ctcclprofiler服务。 在训练任务代码中调用ctcclprofilercomm API: 在训练脚本中配置相关环境变量 启动ctccmslowdetect服务 export PATH"/usr/local/python3/bin:$PATH"(替换为自己的安装路径) && ctccm nnodes 4 port 8002 debug 启动所有节点上的ctcclprofilernet服务 启动分布式训练任务,ctccm会收到任务的逻辑拓扑 ctccm在训练中检测集群中是否存在慢节点,一旦发现慢节点则下发开始收集细粒度的监控信息的控制信号,并做慢节点定位定界。 当计算慢时,ctccm会给出计算慢的TP通信域所包含的rank。 当通信慢时,ctccm会给出慢的QP以及它所对应的网卡对和所在节点。
        来自:
        帮助文档
        训推服务
        用户指南
        训推加速
        慢节点检测工具套件 CTCCL-Slowdetect
        CTCCL-Slowdetect最佳实践
      • 模型的国产化适配与性能加速
        在国产化适配方面主要具备能力: 针对提供的算力,可以提供全套迁移服务 针对提供的AI算力,支持自动生成模型的算子支持度分析报告 针对提供的算力,可以提供迁移适配服务 对适配后的算子,可以提供精度对齐调优工具 对适配后的算子,可以提供专家持续提供调优指导服务
        来自:
        帮助文档
        一站式智算服务平台
        用户指南
        训推加速
        模型的国产化适配与性能加速
      • CTCCL环境变量设置
        环境变量 描述 推荐值 NCCLIBGIDINDEX RDMA协议使用的GID 3 NCCLIBHCA RDMA通信使用的网卡 mlx5 NCCLIBTIMEOUT RDMA连接超时时间,合理配置可以提高训练任务的容错能力 22 NCCLSOCKETIFNAME 使用该端口建立连接 bond0 NCCLDEBUG 日志级别 INFO/WARN NCCLDEBUGSUBSYS 打印的info信息子类别,设置为REPORT可以输出网卡对带宽信息(若带宽统计功能开启)、事件上报日志(若上报功能开启) REPORT NCCLIBQPSPERCONNECTION 单连接使用的并行传输QP数量。若要使用QP切换与重传功能,请不要配置为1 8 NCCLNETPLUGIN 配置网络插件 none CTCCLERRREPORT 默认为0,配置为1后,CTCCL内部发现异常上报云骁平台。使用云骁智能平台拉起训练任务时,该功能默认打开。 0 CTCCLBWREPORT 默认为0,配置为1后,统计网卡对集合通信带宽信息并记录在日志中,日常正常训练不建议开启。使用云骁智能平台拉起训练任务时,该功能默认打开。 0 CTCCLIBLBUPLINK 默认为0,RoCE组网下,推荐配置为leaf交换机上行链路数。IB环境下请配置为0,或不做配置。 IB:0 RoCE:上行链路数 CTCCLQPTIMEREPORT 默认为0,要使用慢节点检测工具时请配置为1,必须搭配慢节点检测工具套件使用。 0
        来自:
        帮助文档
        训推服务
        用户指南
        训推加速
        CTCCL优化套件
        CTCCL环境变量设置
      • Windows操作系统安装CUDA工具包
        本节主要介绍了Windows操作系统安装CUDA工具包的流程。 以下操作以Windows Server 2016 Standard 64bit操作系统GPU实例安装CUDA 10.1为例。 1. 登录云主机。 2. 在CUDA下载页面中,按照CUDA工具包下载地址中的对应的索引项在页面中进行选择。 图 选择CUDA版本 3. 选择完成后,页面会自动呈现出Windows Server 2016 Standard 64bit对应的CUDA 10.1的下载地址。 图 Windows云主机下载CUDA 4. 单击“Download”下载CUDA工具包。 5. 双击打开安装文件,单击“运行”安装CUDA工具包。 图 Windows云主机安装CUDA 6. 选择安装地址,在“CUDA Setup Package”界面,单击“OK” 图 选择CUDA安装路径 7. 根据安装提示完成CUDA的安装。 图 CUDA安装完成 8. 检查CUDA是否安装成功。 打开cmd命令窗口,执行以下命令。 nvcc V 如果回显信息中出现CUDA的版本信息,说明CUDA安装成功。 图 CUDA安装成功
        来自:
        帮助文档
        弹性云主机 ECS
        用户指南
        实例
        安装驱动和工具包(可选)
        GPU加速型实例安装Tesla驱动及CUDA工具包
        Windows操作系统安装CUDA工具包
      • 1
      • ...
      • 49
      • 50
      • 51
      • 52
      • 53
      • ...
      • 60
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      聚力AI赋能 天翼云大模型专项

      大模型特惠专区·Token Plan 轻享包低至9.9元起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云信创专区

      “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      物理机 DPS

      镜像服务 IMS

      轻量型云主机

      弹性高性能计算 E-HPC

      天翼云CTyunOS系统

      训推服务

      AI Store

      应用托管

      一站式智算服务平台

      推荐文档

      android端

      客户端Windows版本安装

      产品功能

      续订

      负载均衡删除

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号