基于昇腾通用推理镜像的自定义部署BGE模型
更新时间 2025-09-28 15:10:48
最近更新时间: 2025-09-28 15:10:48
本最佳实践文档旨在为用户提供一个全面、高效的基于昇腾通用推理镜像的自定义部署样例。
一、引言
本文围绕昇腾通用推理镜像的自定义部署展开最佳实践梳理,旨在从模型准备、环境配置、部署流程等关键维度,提供一套可复用的最佳实践。通过标准化的操作指南,帮助开发者快速掌握昇腾推理镜像的自定义部署方法。
二、模型准备
1.开发机完成推理代码开发和调试
1.1创建vscode开发机
1.2启动vscode开发机
1.3打开vscode开发机
1.4在vscode开发机/work/cache目录下,创建code和model目录
1.5准备代码包,把app.tar.gz文件复制到/work/cache/code
1.6右击鼠标,打开Terminal
1.7 解压代码包到/work/cache/code目录下
cd /work/cache/codetar -xzvf app.tar.gz
1.8.下载权重文件
cd/work/cache/model
wget http://llm_models.gz4oss.xstore.ctyun.cn/ascend/bge-m3.tar
tar -xvf bge-m3.tar --strip-components=1
rmbge-m3.tar
启动bge服务
cd /work/cache/code/app
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
exportMODEL_PATH=/work/cache/model
mkdir/logger
python teleservice.py
1.9 耐心等几分钟,看到下面日志即代表启动完成
1.10 点加号,进入新的Terminal界面
验证服务是否正常
curl -X POST http://127.0.0.1:8899/v1/embeddings \
-H "Content-Type: application/json"\
-d '{
"input": ["近日天翼云科技有限公司总经理胡志强在世界电信日期间接受新华网记者采访。"],
"model": "bge-m3",
"encoding_format": "float"
}'
发现有向量数据返回及代表成功
2.开始制作镜像
2.1 点击制作镜像
3.保存模型
3.1 保存至模型管理
选择/work/cache/model下所有文件
下一步,填写对应信息
耐心等几分钟,看到下面模型导入状态成功,则代表模型保存成功
4.导入代码包
4.1 导入代码包
选择代码包app.tar.gz
导入完成
三、服务部署
1. 在我的模型列表中找到对应的模型点击部署
2. 选择对应版本,点击确定
3. 选择对应的自定义镜像,和对应的代码包
4. 配置环境变量
MODEL_PATH=/work/mount/model# 改地址于模型的挂载地址是同一地址
5. 配置运行命令,指定端口:8899
rm -rf /app/;cp -r 代码包挂载地址/app/ /app;cd /app;python teleservice.py
6. 选择资源类型:标准型,点击开始部署
7 .查看部署状态
8. 接入已有的服务组点击编辑添加自己的bge模型
调用验证bge模型
curl --location 'https://wishub-x1.ctyun.cn/v1/embeddings'\
--header 'Content-Type: application/json'\
--header 'Authorization: Bearer 接入服务组appkey'\
--data '{
"input": ["embedding 内容"],
"model": "bge模型id",
"encoding_format": "float"
}'
四、总结
昇腾通用推理镜像的自定义部署最佳实践,是一套融合了模型准备与部署流程规范的综合性解决方案。未来,随着 AI 平台生态的持续完善与推理场景的不断丰富,自定义部署的最佳实践还将进一步迭代,实现更智能、更高效的推理部署体系,为企业 AI 规模化应用注入更强动力。