活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 云聚517 · 好价翼起拼 NEW 爆款云主机低至25.83元/年,参与拼团享更多优惠,拼成得额外优惠券
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 聚力AI赋能 天翼云大模型专项 大模型特惠专区·Token Plan 轻享包低至9.9元起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 企业出海解决方案 NEW 助力您的业务扬帆出海,通达全球!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
Token服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V4-Flash
  • GLM-5.1
  • Qwen3.5-122B-A10B
  • DeepSeek-V3.2(旗舰版)
  • GLM-5(正式版)
智算一体机
  • 智算一体机
智能体引擎
  • 智能体引擎
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      星辰TokenHub运营服务平台

      星辰TokenHub运营服务平台

      • 星辰TokenHub运营服务平台

      无数据

        • 产品动态
        • 产品介绍
        • 产品定义
        • 产品优势
        • 功能特性
        • 应用场景
        • 术语解释
        • 使用限制
        • 计费说明
        • 按需计费模式-Tokens
        • 包周期计费模式-编程Token Plan
        • 包周期计费模式-Tokens量包
        • 包周期计费模式-TPM包
        • 按需计费模式-卡时
        • 包周期计费模式-卡时
        • 产品退订
        • 快速入门
        • 准备工作
        • 快速入门
        • 用户指南
        • 编程Token Plan
        • 套餐概述
        • 快速开始
        • 接入AI工具
        • OpenClaw
        • Claude Code
        • OpenCode
        • Cursor
        • Cline
        • Chatbox
        • Codebuddy
        • Trae
        • Hermes Agent
        • Codex桌面版
        • 常见问题
        • Token Plan
        • 套餐介绍
        • 快速开始
        • 接入AI工具
        • OpenClaw
        • OpenCode
        • Cursor
        • Cline
        • Chatbox
        • codebuddy
        • Trae
        • Hermes Agent
        • Codex桌面版
        • 常见问题
        • 智算广场
        • 模型广场
        • MCP广场
        • 体验中心
        • 模型体验
        • MCP体验
        • 模型服务
        • 服务接入
        • 在线推理
        • 缓存命中
        • 批量推理
        • 调用监控
        • 最佳实践
        • OpenClaw快速添加并使用息壤模型
        • DeepSeek模型调用-快捷版
        • DeepSeek模型调用-专业版
        • 基于息壤的企业级RAG知识库构建指南
        • API参考
        • 推理服务API
        • 如何调用API
        • 接口类型列表
        • API列表
        • 错误处理
        • API
        • Chat对话API
        • Image文本生图API
        • Embeddings文本向量化API
        • Reranker重排序API
        • 模型列表API
        • 平台OpenAPI
        • 平台功能API使用说明
        • 常见问题
        • 计费类
        • 操作类
        • 权限类
        • 联系我们
        • 相关协议
        • 天翼云星辰TokenHub运营服务平台服务协议
        • 天翼云星辰TokenHub运营服务平台用户信息处理规则
        • 生成式人工智能服务备案信息参考
        • 人工智能大模型备案指南
        • 文档下载
          无相关产品

          本页目录

          帮助中心星辰TokenHub运营服务平台最佳实践基于息壤的企业级RAG知识库构建指南
          基于息壤的企业级RAG知识库构建指南
          更新时间 2026-06-10 18:34:16
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2026-06-10 18:34:16
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接

          1. 概述

          本文档基于天翼云息壤星辰TokenHub运营服务平台,为企业用户提供构建 RAG(检索增强生成)知识库问答系统的最佳实践指导。企业用户可在自建RAG系统时参考本文档进行合理的模型选型,从而构建高效、准确的企业知识库智能问答系统。

          1.1 文档目标

          本最佳实践案例旨在帮助企业技术团队:

          • 理解 RAG 系统的核心架构与工作流程

          • 掌握知识入库环节涉及的模型选型与配置

          • 掌握知识问答环节涉及的模型选型与配置

          • 了解基于天翼云星辰TokenHub运营服务平台的模型部署实践

          1.2 适用范围

          本指南适用于以下场景:

          • 企业自建知识库智能问答系统

          • 基于大模型的企业知识管理平台

          • 需要定制化 RAG 能力的业务场景

          • 通过天翼云息壤星辰TokenHub运营服务平台进行模型推理的企业

          2. RAG 系统架构概述

          RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与大语言模型生成的技术架构。RAG 系统的工作流程主要分为两个阶段:知识入库阶段和知识问答阶段。

          2.1 RAG 系统工作流程

          RAG 系统的完整工作流程如下:

          知识入库阶段

          知识问答阶段

          1. 文档上传与解析

          1. 用户问题输入

          2. 文本切块(Chunking)

          2. Query 向量化

          3. Embedding 向量化

          3. 向量相似度检索

          4. 向量数据库存储

          4. LLM 生成回答

          2.2 核心组件说明

          组件类别

          功能描述

          关键模型

          文档解析

          处理 PDF、Word、Markdown 等格式文档

          文档解析模型

          文本切块

          将长文档分割成语义完整的小块

          切块策略/模型

          向量化

          将文本转换为高维稠密向量

          Embedding 模型

          向量存储

          存储和索引向量,支持高效检索

          向量数据库

          问答生成

          基于检索结果生成回答

          LLM 模型

          结果优化

          对检索结果进行相关性排序

          Reranker 模型

          3. 知识入库环节模型选型

          知识入库是 RAG 系统的基础环节,负责将企业文档转化为可检索的向量数据。该环节主要涉及文本切块模型和 Embedding 向量化模型。

          3.1 文本切块模型(Chunking)

          文本切块是将长文档分割成适合检索和理解的小文本块的过程。合理的切块策略直接影响检索质量和生成效果。

          3.1.1 常见切块策略

          切块策略

          描述

          适用场景

          固定长度切块

          按固定字符数或 token 数切分

          通用场景,文档结构简单

          滑动窗口切块

          带重叠区域的固定长度切分

          需要保留上下文连贯性

          语义切块

          基于语义边界(段落、句子)切分

          文档结构清晰,内容关联性强

          递归切块

          按层级结构递归切分

          复杂文档,如 Markdown、HTML

          父子块切块

          大块+小块的层级结构

          需要细粒度检索又保留上下文

          3.1.2 切块策略选择建议

          在选择切块策略时,需要考虑以下因素:

          • 文档类型:结构化文档(Markdown、HTML)适合递归切块;非结构化文档(PDF、Word)可使用语义切块

          • 块大小:一般建议单个块在 256-512 tokens 之间,过大会导致语义稀释,过小会丢失上下文

          • 重叠度:使用滑动窗口时,建议 10-20% 的重叠度以保持上下文连续性

          • Embedding 模型适配:不同的 Embedding 模型对输入长度有不同的限制和要求

          3.2 Embedding 向量化模型

          Embedding 模型是 RAG 系统的核心组件,负责将文本转换为高维稠密向量,使语义相似的内容在向量空间中距离相近。

          3.2.1 BGE-M3 模型详解

          BGE-M3(BAAI General Embedding-M3)是智谱AI开源的文本嵌入模型,在 MTEB(Massive Text Embedding Benchmark)评测中表现优异:

          • 多语言支持:支持 100+ 语言的文本嵌入

          • 高密度检索:支持 ColBERT 式的多向量检索模式

          • 长文本支持:最大输入长度可达 8192 tokens

          • 精准语义捕捉:能够精准捕捉文本语义,有效提高向量检索的准确性

          • 强大泛化能力:在大规模中文数据上充分训练,具备出色的泛化能力

          4. 知识问答环节模型选型

          知识问答是 RAG 系统的核心环节,负责将用户问题转化为回答。该环节主要涉及 Query 向量化模型、大语言模型(LLM)和重排模型(Reranker)。

          4.1 Query 向量化模型

          Query 向量化与知识入库使用相同的 Embedding 模型,确保查询向量与文档向量的语义空间一致。

          4.2 大语言模型(LLM)选型

          LLM 是 RAG 系统的「大脑」,负责基于检索到的内容生成最终回答。选择合适的 LLM 对回答质量和用户体验至关重要。

          4.2.1 主流 LLM 模型对比

          模型名称

          特点

          中文能力

          适用场景

          通义千问

          阿里自研,开源可商用

          优秀

          企业知识库

          DeepSeek

          高性能,低成本

          优秀

          复杂推理场景

          GLM-5

          智谱AI,中文优化

          优秀

          学术/专业问答

          4.2.2 LLM 选型建议

          • 中文企业场景:推荐使用通义千问或DeepSeek,对中文语义理解更精准

          • 成本敏感场景:DeepSeek系列在保持高性能的同时具有成本优势

          • 长文档理解:选择支持长上下文的模型

          • 需要精确引用:选择支持工具调用和引用溯源的模型

          4.2.3 LLM 深度思考模式

          模型开启深度思考可在生成回复前先进行推理,从而在逻辑推理、数学计算等复杂任务中提升准确性。星辰TokenHub运营服务平台支持深度思考的模型分为两种:

          • 混合推理模式:通过enable_thinking参数控制思考开关

            • 设为true:模型先思考再回复;

            • 设为false:模型直接回复;

          • 仅深度思考模式:模型始终在回复前进行思考,无法关闭,即无需设置enable_thinking参数。

          启用思考模式可提升回复质量,但会增加响应延迟和Token消耗。使用混合推理的模型时,可根据问题复杂度动态切换,建议简单任务(日常聊天、简单问答)将enable_thinking设为false关闭思考;复杂任务(逻辑推理、代码生成、数学解答)将enable_thinking设为true开启思考。

          说明

          部分模型支持混合推理模式,具体可通过模型卡片API文档查看是否支持enable_thinking参数。

          4.2.4 LLM 流式输出

          在实时聊天或长文本生成应用中,可开启流式输出通过持续返回模型生成的文本片段,解决长时间等待全部输出内容和触发服务端超时导致任务失败的问题。

          • 配置方式:通过stream参数控制是否以流式接口的形式返回数据

            • 设为true:模型先思考再回复;

            • 设为false:模型直接回复;

          • 查看Token消耗:OpenAI协议默认不返回Token消耗量,若需要统计流式输出模式下token数目,需将stream_options参数配置为stream_options={"include_usage":True}。

          4.3 Reranker 重排模型

          Reranker(重排模型)用于对初步检索结果进行二次排序,提高相关性。典型的两阶段检索架构是:向量检索 + Reranker 重排。

          4.3.1 Reranker 模型

          模型名称

          模型提供方

          特点

          适用场景

          模型服务请求路径

          BGE-Reranker-V2-m3

          北京智源研究院(BAAI)

          支持 100+ 种语言,具备强大的跨语言检索能力(如用中文搜英文),且对长文本支持更好,整体运行效率更优。

          出海/国际化业务、存在多语种混合的知识库,或文档切块(Chunk)较长的综合性 RAG 场景。

          https://wishub-x6.ctyun.cn/v1/rerank

          BGE-Reranker-Large

          北京智源研究院(BAAI)

          参数量大,具备极深度的中英文语义理解能力,重排打分的精准度极高。

          对检索准确率要求极苛刻的严肃场景(如政务、金融、法务),主要处理纯中文或纯英文文档。

          4.3.2 Reranker 使用建议

          • 对于检索质量要求高的场景,建议使用 Reranker 进行结果优化

          • 一般流程:向量检索返回 Top 20-50 条结果 → Reranker 重排 → 取 Top 5-10 条送入 LLM

          • Reranker 会增加响应延迟,需根据业务需求权衡

          5. 天翼云星辰TokenHub运营服务平台模型部署实践

          天翼云息壤星辰TokenHub运营服务平台提供强大的模型推理服务能力,支持企业快速部署和管理各类模型。调用步骤:

          5.1 获取App Key

          方式一:

          在控制台左侧菜单栏进入“概览”,点击“API接入”

          在API快捷接入页面:

          1. 选择服务组:从下拉菜单中选择第一步创建的服务组。如果尚未创建,可点击“确认创建并选择”快速创建默认服务组

          2. 选择模型:从模型下拉菜单中选择需要接入的模型

          3. 选择完成后,页面下方将自动展示该模型支持的所有编程语言的示例代码

          方式二:

          在左侧菜单栏进入“服务接入”,点击“+创建服务组”,填写服务组名称、服务组描述、生效时间、配置服务等信息。

          创建服务组后,从服务组上面获取APP KEY。

          5.2 调用模型API

          Embedding向量化模型、LLM大语言模型、Reranker(重排模型)的请求路径后缀不同:

          功能分类

          支持模型类别

          请求路径后缀

          请求完整路径

          功能描述

          chat

          文本生成、图像理解

          /chat/completions

          https://wishub-x6.ctyun.cn/v1/chat/completions

          针对描述会话的消息列表,模型将返回响应。

          Embeddings

          文本向量化

          /embeddings

          https://wishub-x6.ctyun.cn/v1/embeddings

          创建表示输入文本的嵌入向量。

          Reranker

          重排序

          /rerank

          https://wishub-x6.ctyun.cn/v1/rerank

          通常用于计算查询和文档之间的相关性分数。

          模型详细API文档可查看对应模型卡片-API文档

          6. RAG 系统最佳实践建议

          6.1 知识入库最佳实践

          • 文档预处理:上传前对文档进行清洗和格式化,去除无关干扰信息

          • 合理切块:根据文档结构选择合适的切块策略,建议块大小在 256-512 tokens

          • 模型选择:中文企业知识库推荐使用BGE-M3

          • 增量更新:支持文档增量入库,避免全量重建索引

          6.2 知识问答最佳实践

          • Query 优化:引导用户使用清晰、具体的问法,提高检索准确性

          • 检索参数调优:根据场景调整 Top-K 检索数量,平衡召回率和精确率

          • Prompt 工程:设计高质量的 Prompt,引导 LLM 准确引用检索内容

          • 结果溯源:为回答提供引用来源,增强用户信任度

          6.3 性能优化建议

          • 缓存策略:对频繁查询的 Embedding 结果进行缓存,减少重复计算

          • 异步处理:知识入库采用异步处理模式,不阻塞主流程

          • 向量化加速:使用 GPU 加速 Embedding 模型推理

          • 负载均衡:部署多实例服务,均衡请求负载

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  DeepSeek模型调用-专业版
          下一篇 :  API参考
          搜索 关闭
          ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2026天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明