活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      GPU云主机

      GPU云主机

        • 产品动态
        • DeepSeek专题
        • DeepSeek专题导航
        • 图解:DeepSeek与公有云深度融合
        • 从基础设施到智能中枢:DeepSeek如何重塑公有云服务价值链
        • 高性能GPU云主机助力DeepSeek深度应用
        • 天翼云SD-WAN与DeepSeek超强联动,开启云上高效互联新时代
        • 实践指南:DeepSeek驱动高效能云生态
        • GPU云主机/弹性云主机:零基础搭建DeepSeek云端环境指南
        • GPU物理机:物理机搭建DeepSeek指南
        • SD-WAN跨境:SD-WAN助力DeepSeek模型定向加速
        • 智算容器:云容器引擎与DeepSeek融合实践
        • 函数计算:天翼云函数计算与DeepSeek大模型
        • Q&A:典型问题解析与策略应对
        • 产品简介
        • 产品定义
        • 产品优势
        • 功能特性
        • 产品应用场景
        • 产品规格
        • NVIDIA GPU云主机
        • 国产计算加速型云主机
        • 昇腾计算加速型云主机
        • 寒武纪计算加速型云主机
        • 使用限制
        • 产品地域和可用区
        • 基本概念
        • 计费说明
        • 包周期计费模式
        • 按量计费模式
        • 价格总览
        • 用户指南
        • 常用操作导航
        • 注册账号
        • 创建GPU云主机
        • 创建未配备驱动的GPU云主机
        • 创建配备GPU驱动的GPU云主机(Linux)
        • 创建配备GRID驱动的GPU云主机(Windows)
        • 连接GPU云主机
        • 连接方式概述
        • 使用VNC方式登录GPU云主机(Linux)
        • 使用VNC方式登录GPU云主机(Windows)
        • SSH密码方式登录GPU云主机(Linux)
        • SSH密钥方式登录GPU云主机(Linux)
        • 管理GPU云主机
        • 停止实例
        • 启动实例
        • 重启实例
        • 释放实例
        • 变配
        • 重置密码
        • 更改时区
        • 重装操作系统
        • 查看GPU云主机信息
        • 修改GPU云主机名称
        • GPU监控
        • 安装NVIDIA驱动
        • NVIDIA驱动安装指引
        • 安装Tesla驱动
        • 安装GRID驱动
        • 卸载NVIDIA驱动
        • 卸载Tesla驱动
        • 卸载GRID驱动
        • 升级或降级NVIDIA驱动
        • 常见问题
        • 计费类
        • 操作类
        • 管理类
        • 登录类
        • 故障修复
        • 故障自诊断
        • 因Linux内核升级导致的驱动不可用
        • 因Nouveau驱动未禁用导致的问题
        • 因Xid错误导致的问题
        • 因GPU掉卡导致的问题
        • 因GPU驱动导致ERR!的问题
        • 内核版本与kernel-devel版本不一致导致centos 8.x的计算加速型GPU云主机安装驱动时报错
        • 通过Display Changer分辨率修改工具修改PI7规格云主机的分辨率不生效
        • 缺少 libelf-dev, libelf-devel or elfutils-libelf-devel导致centos 8.x的计算加速型GPU云主机安装驱动时报错
        • 最佳实践
        • 如何选择驱动及相关库、软件版本
        • 在GPU实例上部署NGC环境
        • 安装CUDA
        • 使用 Windows GPU云主机搭建深度学习环境
        • 使用GPU弹性云主机训练ViT模型
        • 如何使用天翼云GPU云主机构建Blender云端渲染服务
        • 本地文件如何上传到Linux云主机
        • 以Llama 2为例进行大模型推理实践
        • API参考
        • API参考
        • 文档下载
        • 文档下载
        • 视频专区
        • 相关协议
        • 服务协议
        • 服务等级协议
          无相关产品

          本页目录

          帮助中心GPU云主机最佳实践以Llama 2为例进行大模型推理实践
          以Llama 2为例进行大模型推理实践
          更新时间 2025-05-26 17:54:15
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2025-05-26 17:54:15
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本节先简要介绍了Llama2模型的基本信息,接着详述了如何在GPU云主机中搭建模型运行环境。基于此,推出了预装 LLaMA2-7B-Chat大模型和模型运行环境的GPU云主机镜像,使您能够快速搭建Llama 2推理和微调环境。

          什么是Llama2

          Meta在7月18日发布了可以免费用于学术研究或商业用途的Llama2开源大语言模型。

          图片2.png

          Llama的训练方法是先进行无监督预训练,再进行有监督微调,训练奖励模型,根据人类反馈进行强化学习。 Llama 2的训练数据比Llama 1多40%,用了2万亿个tokens进行训练,并且上下文长度是Llama 1的两倍。 目前提供7B 、13B、70B三种参数量的版本。

          图片3.png

          根据Meta公布的官方数据,Llama 2在许多基准测试上都优于其他开源语言模型,包括推理、编程、对话能力和知识测试,在帮助性、安全性方面甚至比部分闭源模型要好。

          图片4.png

          Llama 2-Chat在Llama 2的基础上针对聊天对话场景进行了微调和安全改进,使用 SFT (监督微调) 和 RLHF (人类反馈强化学习)进行迭代优化,以便更好的和人类偏好保持一致,提高安全性。

          Llama 2-Chat更专注于聊天机器人领域,主要应用于以下几个方面:

          • 客户服务:Llama 2-Chat可以用于在线客户服务,回答关于产品、服务的常见问题,并向用户提供帮助和支持。
          • 社交娱乐:Llama 2-Chat可以作为一个有趣的聊天伙伴,与用户进行随意、轻松的对话,提供笑话、谜语、故事等娱乐内容,增加用户的娱乐体验。
          • 个人助理:Llama 2-Chat可以回答一些日常生活中的问题,如天气查询、时间设置、提醒事项等,帮助用户解决简单的任务和提供一些实用的功能。
          • 心理健康:Llama 2-Chat可以作为一个简单的心理健康支持工具,可以与用户进行交流,提供情绪调节、压力缓解的建议和技巧,为用户提供安慰和支持。

          在GPU云主机上搭建模型运行环境

          步骤一:创建1台未配置驱动的GPU云主机

          1. 进入创建云主机页面。

          a.点击天翼云门户首页的“控制中心”,输入登录的用户名和密码,进入控制中心页面。

          image.png

          b.单击“服务列表>弹性云主机”,进入主机列表页。

          image.png

          c.单击“创建云主机”,进入弹性云主机创建页。

          image.png

          1. 进行基础配置。

          a.根据业务需求配置“计费模式”、“地域”、“企业项目”、“虚拟私有云”、“实例名称”、“主机名称”等。

          b.选择规格。此处选择"CPU架构"为"X86"、"分类"为"GPU加速/AI加速型"、"规格族"为"GPU计算加速型p2v"、"规格"为"p2v.4xlarge.8"。

          注意

          大模型推理场景需要处理大量的数据和参数,对显卡显存和云盘大小都有一定要求。

          • 针对显存,加载全精度Llama-7B-chat模型时,模型将消耗28G显存,除此之外也需要额外的显存用于存储中间激活和其他临时变量,因此,最低选择显存为32G的V100显卡。同时您也可以根据自身需求对模型进行量化,缩减模型大小,减少对显存的要求并提升计算速度。

          • 针对系统盘,为了存储模型文件、相关依赖、输入数据以及中间结果,最好将系统盘大小配置为100GB以上。

          c.选择镜像。此处选择ubuntu 20.04的基础镜像进行推理实践。

          注意

          为了演示模型搭建的整个过程,此处选择未配备任何驱动和工具包的ubuntu基础模型。详细创建步骤请参见创建未配备驱动的GPU云主机-GPU云主机-用户指南-创建GPU云主机 - 天翼云。

          最终我们生成了预装llama2模型和模型依赖的大模型镜像,并在成都4进行了加载,如您有相关需要可在订购时直接选择该镜像——大模型镜像 LLaMA2-7B-Chat(100GB)。

          d.设置云盘类型和大小。

          image.png

          image.png

          image.png

          1. 网络及高级配置。设置网络,包括"网卡"、"安全组",同时配备'弹性IP'用于下载模型和相关依赖;设置高级配置,包括"登录方式"、"云主机组"、"用户数据"。
          2. 确认配置并支付。

          步骤二:下载模型并上传

          从魔乐社区、魔搭社区等国内大模型社区及平台下载Llama-2-7b-chat模型。下载完成后上传至GPU云主机/opt/llama路径下。

          说明

          如何将本地文件上传到Linux云主机请参考本地文件如何上传到Linux云主机。

          步骤三:环境搭建

          1. 上传并安装GPU驱动

          从Nvidia官网下载GPU驱动并上传至GPU云主机,按照如下步骤安装驱动。

          # 对安装包添加执行权限
          chmod +x NVIDIA-Linux-x86_64-515.105.01.run
          # 安装gcc和linux-kernel-headers
          sudo apt-get install gcc linux-kernel-headers
          # 运行驱动安装程序
          sudo sh NVIDIA-Linux-x86_64-515.105.01.run --disable-nouveau
          # 查看驱动是否安装成功
          nvidia-smi
          

          图片6.png

          说明

          如何选择驱动及相关库、软件版本请参见如何选择驱动及相关库、软件版本。

          TESLA驱动安装更详细说明请参见安装Tesla驱动-GPU云主机-用户指南-安装NVIDIA驱动 - 天翼云。

          1. 安装Nvidia CUDA Toolkit组件
          wget http://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
          # 安装CUDA
          bash cuda_11.7.0_515.43.04_linux.run
          # 编辑环境变量文件 
          vi ~/.bashrc
          #在当前行下新开一行并插入
          o
          # 增加环境变量
          export PATH=/usr/local/cuda/bin:$PATH
          export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
          # 按Esc 键退出插入模式并保存修改
          :wq
          # 使环境变量生效
          source ~/.bashrc
          # 查看是否安装成功
          nvcc -V
          
          1. 安装Miniconda
          wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
          # 安装Miniconda3
          bash Miniconda3-latest-Linux-x86_64.sh
          # 配置conda环境变量
          vim /etc/profile
          #在当前行下新开一行并插入
          o
          # 添加环境变量
          export ANACONDA_PATH=~/miniconda3
          export PATH=$PATH:$ANACONDA_PATH/bin
          # 按Esc 键退出插入模式并保存修改
          :wq
          # 使环境变量生效
          source /etc/profile
          # 查看是否安装成功
          which anaconda
          conda --version
          conda info -e
          source activate base
          python
          # 查看虚拟环境
          conda env list
          

          图片7.png

          1. 安装cuDNN

          从cudnn-download下载cuDNN压缩包并上传至GPU云主机,按照如下步骤进行安装。

          # 解压
          tar -xf cudnn-linux-x86_64-8.9.4.25_cuda11-archive.tar.xz
          # 进目录
          cd cudnn-linux-x86_64-8.9.4.25_cuda11-archive
          # 复制文件到 CUDA 库目录
          cp ./include/*  /usr/local/cuda-11.7/include/
          cp ./lib/libcudnn*  /usr/local/cuda-11.7/lib64/ 
          # 访问授权
          chmod a+r /usr/local/cuda-11.7/include/* /usr/local/cuda-11.7/lib64/libcudnn*
          # 查看是否安装成功
          cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
          #返回根目录
          cd
          

          图片8.png

          1. 安装依赖

          a. 下载Llama模型代码

          git clone https://github.com/facebookresearch/llama.git
          

          b. 在线安装依赖

          # 创建python310版本环境
          conda create --name python310 python=3.10
          # 查看虚拟环境列表
          conda env list
          # 激活python310环境
          source activate python310
          # 切换到llama目录
          cd /opt/llama
          python -m pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
          # 下载依赖
          pip install -e . -i  https://pypi.tuna.tsinghua.edu.cn/simple
          pip install transformers  -i  https://pypi.tuna.tsinghua.edu.cn/simple
          pip install numpy==1.23.1 -i  https://pypi.tuna.tsinghua.edu.cn/simple
          pip install torch==2.0.1 -i  https://pypi.tuna.tsinghua.edu.cn/simple
          pip install -U bitsandbytes -i  https://pypi.tuna.tsinghua.edu.cn/simple
          # 下载peft
          git clone https://github.com/huggingface/peft.git
          # 传到离线服务器上切换分支,安装特定版本peft
          cd peft
          git checkout 13e53fc
          # 安装peft 
          pip install . -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn
          
          注意

          安装相关依赖的耗时较久请您耐心等待。

          1. 准备推理代码和启动脚本

          a. 进入/opt/llama目录下

          cd /opt/llama
          

          b.下载推理代码

          访问 github网站,下载推理代码inference_hf.py并上传至云主机。

          c.新建启动脚本run.sh

          #新建空文件
          vim run.sh
          #文件内新增如下内容
          python inference_hf.py
          --base_model  7b-chat
          --tokenizer_path 7b-chat
          --with_prompt
          --gpus 0
          

          步骤四:镜像打包

          为了使您能更快的搭建模型运行环境,在完成步骤一和步骤二的操作后,我们对GPU云主机的系统盘进行了打包,生成了标准的GPU云主机镜像。目前已经上传至天翼云成都4、海口2资源池,您可直接对该镜像进行使用。

          镜像打包步骤如下:

          echo "nameserver 114.114.114.114" > /etc/resolv.conf
          echo "localhost" > /etc/hostname
          
          # 清除 machine-id。
          yes | cp -f /dev/null /etc/machine-id
          # 若有 /var/lib/dbus/machine-id,则:
          # rm -f /var/lib/dbus/machine-id
          # ln -s /etc/machine-id /var/lib/dbus/machine-id
          
          cloud-init clean -l  # 清理 cloud-init。若此命令不可用,则可尝试:rm -rf /var/lib/cloud
          rm -f /tmp/*.log  # 清除镜像脚本日志。
          
          # 清理 /var/log 日志。
          read -r -d '' script <<-"EOF"
          import os
          def clear_logs(base_path="/var/log"):
              files = os.listdir(base_path)
              for file in files:
                  file_path = os.path.join(base_path, file)
                  if os.path.isfile(file_path):
                      with open(file_path, "w") as f:
                          f.truncate()
                  elif os.path.isdir(file_path):
                      clear_logs(base_path=file_path)
          
          if __name__ == "__main__":
              clear_logs()
          EOF
          if [ -e /usr/bin/python ]; then
              python -c "$script"
          elif [ -e /usr/bin/python2 ]; then
              python2 -c "$script"
          elif [ -e /usr/bin/python3 ]; then
              python3 -c "$script"
          else
              echo "### no python env in /usr/bin. clear_logs failed ! ###"
          fi
          
          # 清空历史记录。
          rm -f /root/.python_history
          rm -f /root/.bash_history
          rm -f /root/.wget-hsts
          

          使用大模型镜像进行模型快速部署

          步骤一:创建GPU云主机

          登录天翼云控制台,进入弹性云主机主机订购页,选择计算加速型GPU云主机,在公共镜像中选择大模型镜像 LLaMA2-7B-Chat。

          image.png

          大模型镜像 LLaMA2-7B-Chat最低规格推荐:p2v.2xlarge.4 8vCPU 32GB内存 单张v100 GPU。

          步骤二:在线推理

          登录GPU云主机,根据如下步骤执行推理任务。

          #进入/opt/llama目录并执行sh run.sh命令
          cd /opt/llama && sh run.sh
          #根据提示在  ”please input your question :” 后输入推理问题
          

          图片10.png

          注意

          大模型推理场景下不同模型多于显卡显存和云盘的大小都有一定要求。

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  本地文件如何上传到Linux云主机
          下一篇 :  API参考
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明