创建智能路由
更新时间 2026-04-16 20:43:46
最近更新时间: 2026-04-16 20:43:46
本节介绍创建智能路由。
前提条件
已完成AI套件安装,网络组件运行正常。
已创建智能网关(同命名空间),且处于运行状态。
已创建推理应用,且处于运行状态。
约束与限制
操作步骤
1、创建智能路由
登录云容器引擎管理控制台;
在集群列表页点击进入指定集群;
进入主菜单 智算套件 > AI应用列表> 在线推理,点击应用名称:
选择智能路由Tab页,点击创建按钮:
右侧弹框显示智能路由配置信息,说明如下:
| 配置项 | 说明 | |
|---|---|---|
| 名称 | 智能路由名称不可编辑,命名规范:${inferenceName}-scheduler。 | |
| 命名空间 | 命名空间不可编辑,与推理应用保持一致。 | |
| 网关类型 | 流量接入方式:智能网关(IGW)表示集群内自建网关;AI网关(AGW)表示云上AI网关产品。 | |
| 网关实例 | 根据选择的网关类型,筛选出可用的网关实例列表。
| |
| 路由规则 | 目前支持负载感知和前缀缓存感知,后续会进一步适配Lora、语义路由等规则 | |
| 调度配置 | CPU | 网关实例容器CPU配置,单位核数 |
| 内存 | 网关实例容器内存配置,单位Gi | |
| 副本数 | 网关实例部署的副本数,一般建议设置3副本 | |
点击创建按钮,完成智能路由创建
2、查看智能路由状态
智能路由创建完成后,点击右上角刷新按钮,查看状态,如下图所示:
后台资源就绪约5s左右 ,智能路由状态处于运行中即可对外提供服务。
3、查看智能路由日志信息
通过切换Pod列表查看不同网关实例的日志信息。
4. 查看智能路由监控信息
注意
需要有访问记录才能生成智能路由监控指标信息。
5、访问智能路由
调用信息
创建智能路由成功后,会生成调用信息,如下图所示:
调用信息跟选择的网关实例有关,若网关绑定公网访问型的负载均衡,则会显示公网调用地址和VPC调用地址,否则只会显示VPC调用地址。
Host配置
由于网关可关联多个智能路由,为了区分后端服务,采用如下命名规则:
Host: ${inferenceName}-scheduler.${namespace}.inference.cn服务调用
VPC内访问
(1)访问示例
curl http://192.168.0.92:8000/v1/completions \
-H "Host: inference-ro04or-scheduler.ir.inference.cn" \
-H "Content-Type: application/json" \
-d '{
"model": "inference-ro04or",
"prompt": "San Francisco is a",
"max_tokens": 7,
"temperature": 0
}'(2)访问结果
Port-Forward访问
(1)本地映射网关实例服务端口
进入主菜单:网络->服务,选择命名空间icce,输入实例名称进行搜索
(2)端口映射
# kubectl port-forward svc/envoy-ir-mgateway-bc6df95c -n icce 8000:8000
Forwarding from 127.0.0.1:8000 -> 8000
Forwarding from [::1]:8000 -> 8000(3)访问示例
curl http://localhost:8000/v1/completions \
-H "Host: inference-ro04or-scheduler.ir.inference.cn" \
-H "Content-Type: application/json" \
-d '{
"model": "inference-ro04or",
"prompt": "San Francisco is a",
"max_tokens": 7,
"temperature": 0
}'(4)访问结果
{"choices":[{"finish_reason":"length","index":0,"logprobs":null,"prompt_logprobs":null,"prompt_token_ids":null,"stop_reason":null,"text":" city in the state of California,","token_ids":null}],"created":1772694462,"id":"cmpl-2f9f4601-62e0-440a-8ec8-379a35fce05e","kv_transfer_params":null,"model":"inference-ro04or","object":"text_completion","service_tier":null,"system_fingerprint":null,"usage":{"completion_tokens":7,"prompt_tokens":4,"prompt_tokens_details":null,"total_tokens":11}}