功能概述
文档分块器节点的主要作用是:将长文档内容按照配置策略拆分为逻辑连贯、可索引的文本块,实现知识的结构化与高效检索。在知识流水线的执行过程中,分块器节点接收上游节点(如“文档转换器”或“数据源节点”)输出的标准化文档内容,并根据设定的分块策略执行自动切分。 这些分块结果将被写入知识库中,形成树状的层级结构,以便后续的嵌入与语义搜索引擎高效利用。
插件化的分块策略
XpertAI 的文档分块器节点完全基于 插件策略机制(Strategy Plugin) 实现。 这意味着系统可以根据不同文档类型、业务场景或语言特性动态切换不同的分块算法。 常见的策略包括:- 递归字符分块(Recursive Character Splitter): 通过递归方式按段落、句子和空格分割长文本,兼顾语义完整性与块大小平衡。
- Markdown 层级分块:
针对技术文档或知识文章,按标题层级(
#、##等)形成父子分块结构,保留文档的上下文语义。 - 语义相似度分块(在研): 基于语言模型的句子嵌入,动态识别主题变化点,实现智能分块。
智能配置与可视化调试
在知识流水线编排界面中,用户可以为分块器节点配置关键参数,例如:- 块大小(Chunk Size):每个文本块的最大字符或 token 数;
- 块重叠(Chunk Overlap):相邻块之间的重叠长度,用于保持上下文连续;
- 分隔符(Separators):文本中用于识别段落或句子的分隔符列表;
- 自定义策略选择:通过插件提供的分块策略下拉菜单选择最适合的算法。
应用场景
1. 知识嵌入与检索优化
分块后的文档更适合生成高质量的向量表示,提高语义检索和问答精度。 例如,针对企业内部制度文档,合理的分块可显著提升 AI 回答的上下文匹配度。2. 多模态知识融合
在 OCR、网页爬取或在线文档接入场景中,分块器节点可以区分图像与文本块,分别进行嵌入处理,支持图文混合知识的统一管理。关键特性总结
| 特性 | 说明 |
|---|---|
| 插件化策略架构 | 通过统一的插件 SDK 接口,支持不同分块算法接入 |
| 多层级结构支持 | 生成树状 Chunk 结构,保留上下文层次 |
| 参数可配置化 | 可灵活定义块大小、重叠与分隔符 |
| 支持测试与回溯 | 在预览模式下快速验证分块效果 |
| 与知识任务联动 | 与知识任务、文档状态无缝衔接,实现全流程自动化 |