知识库
知识库是 combo agent 的外部记忆。把企业规范、既往项目、行业标准一次性喂进去,Agent 在回答/生成时会自动检索相关片段。
1. 入口
顶部菜单 "知识库" 标签进入。

页面分三块:
- 顶部搜索:按名称搜。
- "我的知识库":你本人创建的。
- "团队知识库":当前租户/团队成员创建并共享给你的。
跨租户(如你既在汽车项目又在专利项目的租户里)切换顶部租户后,知识库列表会过滤到当前租户可见范围。
2. 创建知识库
点击右上角 "创建知识库",填写:
| 字段 | 说明 | 建议 |
|---|---|---|
| 名称 | 显示名 | 业务含义命名,如"汽车规范 ISO 26262"、"张三的专利素材" |
| 头像 | 可选 icon | 不重要,便于视觉识别 |
| 描述 | 简短说明 | 写清楚「里面是什么文档、给谁用」 |
| 权限 | 私有 / 租户内共享 | 私有只你可见;共享=租户成员可引用 |
| 语言 | 中 / 英 / 混合 | 影响分词与 embedding 策略 |
创建成功后会进入知识库详情页,左侧有四个子页签:数据集 / 检索测试 / 切片 / 设置。

3. 上传文档(数据集)
3.1 支持格式
3.2 上传方式
- 拖拽:直接把文件/文件夹拖到页面。
- 点击上传:打开文件选择器。
- 批量上传:单次最多 100 文件,超出自动分批。
- 文件夹递归:保留目录结构作为文档标签。

3.3 解析状态
| 状态 | 含义 | 典型用时 |
|---|---|---|
| 待解析 | 已上传未排队 | — |
| 解析中 | 正在切片 + embedding | 1–30 秒/文件 |
| 已解析 ✅ | 可被检索 | — |
| 失败 ❌ | 文件损坏 / 格式不支持 / OCR 超时 | 点"重试"或替换文件 |
解析失败的文档不会被检索。生产环境有个"定时重试"兜底,但别依赖它;重要文档上传完马上看状态列。
4. 切片方式(最重要的设置)
一个文档能否被 Agent "用好",70% 取决于切片策略。在 "设置" Tab 里选 parser_id,系统提供 15 种:
| Parser | 中文名 | 适用文档类型 | 核心逻辑 |
|---|---|---|---|
naive | 通用(默认) | 任何文本 | 按固定 token 数 + 可选分隔符切分 |
qa | 问答对 | FAQ / 对话记录 | 识别 Q/A 成对切片 |
resume | 简历 | 简历 PDF / Docx | 按简历段落结构切 |
manual | 手册 | 用户手册 / 产品说明书 | 按 h1/h2 结构切,保留章节上下文 |
table | 表格 | 纯表格 Excel / 带表 Docx | 行/单元格粒度切,保留列头 |
paper | 论文 | 学术论文 PDF | 按 Abstract/Introduction/Method/Conclusion 切 |
book | 书籍 | 长篇著作 | 章/节/小节三级结构 |
laws | 法律 | 法条 / 审查指南 | 按条款编号切,保留层级引用 |
presentation | 幻灯片 | PPT / PPTX | 每页一个切片 + OCR 图中文字 |
picture | 图片 | 纯图 + OCR | 一张图一个切片,OCR 后的文本入 embedding |
one | 整文档 | 短文档(< 几千 token) | 整个文档作为一个切片 |
audio | 音频 | 录音 | 转录 → 按说话人/时间片切 |
email | 邮件 | .eml | 按线程/发件人切片 |
tag | 标签库 | 术语表 / 标签 | 不做切片,作为标签字典被其他 KB 引用 |
knowledge_graph | 知识图谱 | 任意文本 | 抽实体关系,构建 KG,支持图检索 |
选择建议:
4.0.1 切片解析结果浏览:以 ABZ ASPICE 案例为例
文档上传 + 解析完成后,每个文件都可以从"知识库 → 数据集"列表点进去,进入解析块(chunks)浏览页,逐条查看 LLM 切出的内容。
下面以 ABZ 知识库(基于 Eclipse S-CORE 的 ABZ 自适应外部照明 ASPICE 全套交付物)为例。
Step 1:文件列表页
进入知识库后能看到文档列表,每行展示:文件名、所在目录、分块数、上传日期、切片方法、启用开关、解析状态、动作按钮。

Step 2:点文件名进入解析块页
点任意文件名(如 09-Executive-Summary-and-Cover-v1.17.docx)进入"解析块"页面:
- 顶部面包屑:
知识库 / 数据集 / 解析块,可一键回退 - 每条 chunk 独立卡片展示,右上角有启用开关,可以单条停用
- 结构化内容保留:表格被识别为表格 chunk(如上图中
Subject / Program / Platform / Compliance等元数据表格被完整切出,行列结构未被打散) - 批量操作:左上角"批量"可以多选 chunk 后启用 / 停用 / 删除
- 检索预览:右上角"全文 / 省略 / 搜索 / 过滤"按钮支持快速找到特定 chunk

同样的浏览页适用于所有 parser(naive / qa / paper / book / picture / one 等)。区别只是切片粒度和切片内字段:
naive/book/paper:文本块 + 段落表格picture:每张图一个 chunk,内容是视觉 LLM 输出的结构化描述qa:每对 Q/A 一个 chunkknowledge_graph:每个实体 / 关系一个 chunk
4.1 通用切片参数(所有 parser 共用)

| 参数 | 范围 | 含义 |
|---|---|---|
| Chunk Token 数 | 64–2048 | 单个切片的最大 token;小→检索精准,大→保留上下文 |
| 分隔符 | 正则 / 字符串 | 强制切分点,多值换行分隔(如 \n\n、。) |
| Auto Keywords | 0–30 | 每片自动抽取 N 个关键词,做 BM25 辅助检索 |
| Auto Questions | 0–10 | 每片自动生成 N 个潜在问题,提高 Recall |
| Layout Recognize | ON / OFF | 是否启用视觉版面识别(标题/图表定位);PDF/PPT 强烈建议 ON |
4.2 嵌入模型
"设置 → 嵌入模型" 下拉选:
bge-large-zh-v1.5(中文默认,1024 维)bge-m3(多语言,1024 维)text-embedding-3-small / -3-large(OpenAI)- 自部署:
GPUStack、Ollama、Xinference提供的任何 embedding 模型
一旦上传文档并解析,embedding 模型不能再改。切模型会导致新旧切片向量空间不一致,只能删库重建。务必在上传前确认。
5. 检索测试
"检索测试" Tab:在正式接入 Agent 之前验证切片质量。

- 输入问题 / 关键词
- 选
Vector/Text/Hybrid三种模式 - 调
top_k(1–30) - 查看返回片段 + 相关性得分 + 所属文档 + 切片 ID
判断标准:
- 期望答案所在文档片段排在 Top-5:切片配置 OK
- 排不进 Top-20:调小 chunk token、开 Auto Questions、换 embedding
- 完全检索不到:检查文档是否"已解析"、embedding 是否正确生成
6. 绑定到 Agent(最关键一步)
知识库本身只存数据,不会自动被 Agent 调用。你必须显式绑定。
6.1 三种绑定方式
当前版本提供三种绑定入口(按常用度排序):
| 方式 | 入口 | 适用场景 |
|---|---|---|
| 会话级别临时绑定 | ChatInput → 📎 附件按钮上传文件 | 一次性任务(总结这份 PDF、分析这份 docx) |
| Combo/Agent API 级别绑定 | 后端创建 Combo 时在 payload 中传 kb_ids: ["kb_xxx"] | 企业规范、行业标准等需要每次会话都生效的知识库 |
| CronJob 定时任务绑定 | 个人中心 → 定时任务 → 创建任务时在 kb_ids 字段选知识库 | 每日/每周扫描知识库并汇总分析 |
当前版本的 Agent 模板编辑 UI 尚未对外暴露
kb_ids字段,需要通过 API/CronJob 配置。后续会补充"编辑 Agent → 勾选知识库"的图形化入口。
6.2 临时知识库 vs 正式知识库
| 维度 | 临时知识库 | 正式知识库 |
|---|---|---|
| 创建方式 | ChatInput 直接上传附件 | 顶部「知识库」菜单创建 |
| 作用范围 | 仅当前会话 | 跨会话、跨租户成员可引用 |
| 持久化 | 会话删除即丢失 | 独立存储 |
| Agent 自动看到 | 当前会话的 Agent 自动包含 | 必须绑定 kb_ids 才进入检索 |
最佳实践:临时上传适合一次性任务(如"帮我总结这个 PDF"),正式知识库适合需要长期复用的资料(如企业规范、行业标准)。
7. 知识图谱(KG)
parser_id=knowledge_graph 的知识库会额外构建实体-关系图,支持:
- 图可视化(力导图):探索实体之间的联系
- 图检索:问"A 和 B 之间有什么关系?"时按图遍历回答
- 属性检索:按实体属性过滤(如"找所有类型=芯片的实体")

详见:Skills / 知识图谱 中相关能力说明。
8. 常见问题
Q:上传了文档为什么 Agent 还是答不准? A:按顺序检查:
- 文档解析状态是否 ✅ 已解析
- 到「检索测试」试问,看期望片段能否 Top-5 命中
- 到 Agent 编辑页确认该知识库已出现在
kb_ids多选里 - 在会话里问时,Plan Mode 是否是
Auto/Full(Fast会跳过部分规划,可能不触发检索步骤)
Q:同一个文档传两次会重复吗? A:系统按文件哈希 + 文件名去重。同名文件覆盖升级(旧切片删除重建),不会产生重复片段。
Q:能不能控制哪些切片允许被检索、哪些不行? A:可以。每个切片可设"启用/禁用"(在"切片"Tab 的列表里切开关),禁用的片段不参与 embedding 检索。
Q:知识库容量上限? A:没有硬限制,但建议单库 < 100 万 chunk。超量请按主题拆库。ES / Infinity 驱动下单库 1000 万 chunk 检索仍 < 300ms,但管理界面会变卡。
Q:团队成员删了知识库,我本地还能用吗?
A:不能。删除是硬删除,Agent 绑定 kb_ids 中对应条目会在下次检索时报"库不存在",需要移除或替换。