知识库创建
点击左侧导航栏中的知识库按钮进入知识库管理页面,点击创建知识库,单用户最多创建50个知识库。
支持用户针对已创建的知识库或创建知识库时添加标签,方便用户管理自己搭建的知识库。
文件上传指定的文件类型:TXT、MARKDOWN、PDF、OFD、XLSX、XLS、DOCX、DOC、CSV、WPS、WPT、ET、ETT、JPG、JPEG、PNG、BMP、TIFF
支持用户自定义标签(标签上限10个),并在创建知识库的时候选择标签。
数据类型及数据上传要求
星辰MaaS智能体平台支持三种数据类型文件,包含结构化数据、非结构化数据、多模态数据。
非结构化数据:支持上传文件格式包含TXT、MARKDOWN、PDF、DOC、DOCX、OFD、WPS、WPT格式。
结构化数据:支持上传文件格式包含CSV、XLSX、XLS、ET、ETT格式。
多模态数据:支持上传文件格式包含JPG、JPEG、PNG、BMP、TIFF格式
根据选择数据类型上传对应文件。上传非对应数据类型文件,会异常报错。
非结构化数据文件:要求上传的每个文件不超过50MB,最多同时上传30个文件
结构化数据文件:要求上传的每个文件不超过20MB,最多同时上传50个文件
多模态数据文件:要求上传的每个文件不超过5MB,最多同时上传50个文件
配置选择
分段处理:
适用于非结构化数据类型,文件格式包含TXT、MARKDOWN、PDF、DOC、DOCX、OFD、WPS、WPT。(结构化数据会按照表格行数进行切分;多模态数据无相关功能。)
自动分段与清洗方式:自动模式适合对分段规则与预处理规则尚不熟悉的初级用户。在该模式下,星辰MaaS智能体平台将为你自动分段与清洗内容文件,你不需要进行任何筛选与操作。
自定义:自定义模式适合对于文本处理有明确需求的进阶用户。在自定义模式下,你可以根据不同的文档格式和场景要求,手动配置文本的分段规则和清洗策略。配置参数如下:
分段标识符:系统将在文本中出现指定的标识符的分段,文本换行时将自动分段;
分段最大长度:根据分段的文本字符数最大上限来进行分段,超出该长度时将强制分段。一个分段的最大长度为500-10000字节;
分段重叠长度:分段重叠指的是在对数据进行分段时,段与段之间存在一定的重叠部分。这种重叠可以帮助提高信息的保留和分析的准确性,提升召回效果。建议设置为分段长度 Tokens 数的 10-25%。
文本预处理规则:文本预处理规则可以帮助过滤知识库内部分无意义的内容。例如替换连续的空格、换行符和制表符。
Embedding模型设置:
Embedding 模型用于将自然语言处理转为向量,用于后续检索和大模型处理。
可选择的内置embedding模型,或在设置-模型来源中添加第三方embedding模型。
解析方式
解析方式包含快速解析和精准解析,适用于非结构化数据类型,支持文件格式包含PDF、TXT、DOCX、MARKDOWN格式。
快速解析:适用于纯文本类型,不会识别文档中的图像元素。
精准解析:适合于图片型pdf。
知识增强
知识增强里面包含知识图谱,适用于非结构化数据。知识增强的作用是辅助召回涉及知识库问答的内容。
知识图谱能力:开启知识图谱能力后,能够使用graphrag算法提取文档内容中的实体,形成图谱辅助召回。