文档切分设置

2026-04-15   访问量:0



文档切分指的是系统按照一定规则,将文档内容划分为多个独立的切片。这些切片会被索引并存储在知识库中,是实现 RAG(Retrieval-Augmented Generation,检索增强生成)能力的核心环节。在问答过程中,当用户提出问题时,系统会先从知识库中检索与问题最相关的内容切片,然后将这些切片作为外部知识注入大模型的上下文中,辅助其生成答案。合理的切分大小将直接影响检索和生成的效果:

切片过大:可能包含过多无关信息,导致检索精度下降,并增加计算与资源消耗。

切片过小:内容不完整,缺乏上下文连贯性,容易造成召回知识片段碎片化,使生成答案不够全面。

因此,平台在产品层面提供了灵活的文档切分规则,支持用户根据业务需求自定义调整规则,以在检索效率与生成质量之间取得最佳平衡,充分发挥 RAG 技术在知识问答与信息检索中的优势。

文档切分功能介绍

文档切分的规则支持默认切分规则自定义切分规则:

默认切分规则:产品使用模型能力进行切分,默认切片规则不支持用户干预。

自定义切分规则:提供3种切分规则支持用户选择,包括通用标识符切分、父子标识符切分、及按行切分。

切分规则及对比

默认切分

通用标识符切分

父子标识符切分

按行切分

适用文档类型

产品上支持导入的全部文档类型。

支持非表格类的文档,不包括 xlsx、xls、csv。

支持非表格类的文档,不包括 xlsx、xls、csv。

支持表格类的文档,包括xlsx、xls、csv。

使用场景

适用于对文档切分无特殊要求的场景。

适用于对切片有特殊业务要求的场景,如按照页数切分、按照自定义的标识切分。

适用于对检索切片和召回切片分别都有特殊要求的场景。支持用户自定义设置切分标识符做切分。

对表格文档生效,且每行/每几行数据是独立的、无语义关联性,如商品sku文档。

切分逻辑

基于切分模型实现切分:

支持语义完整性切分。

支持跨页表格合并。

支持解析表格中的图片信息。

支持解析文档中的表格内容,包括有线及无线表格。

支持数据图、流程图、架构图、思维导图的解析。

支持多栏、公式、子图等复杂元素的解析。

支持用户设置标识符、切片最大长度、切片重叠长度以切分文档,切片用于检索和大模型召回使用。



父级和子级切片分别支持用户设置标识符、切片最大长度、切片重叠长度。



子级切片用于知识检索,检索到对应的父级片段后用于大模型召回

支持用户设置表头范围、数据切分起始行以及切分行数。系统将表格文档按照设置的切分行数切分成片段。

功能入口

入口1:在知识库中第一步上传文档,第二步设置文档切片。按照文档类型对同一批上传的文档生效。







入口2:已导入的文档可重新设置文档切分,依次点击知识库中指定文档右侧的更多 > 解析切分干预,可查看解析切分的结果并可通过单击文档切分设置重新设置切分规则。













说明:

设置文档切分规则后,将按照原文档重新切分,覆盖之前干预的切分结果。

功能说明

1. 表格文档

支持设置默认切分按行切分,设置后对所有表格类的文档生效,包括 xlsx、xls、csv。

默认切分

产品上使用“切分模型”基于表格行数、语义完整性等进行切分。

按行切分

系统按照用户自定义的规则将内容拆分为独立的片段,当用户输入问题后,系统使用用户问题检索切片内容,并将匹配的切片内容召回给到大模型用于答案生成。切片用于知识检索和大模型召回使用。

表头范围:支持选择表格文档的表头范围,每个切片中都会包含表头数据,区间最大支持设置5行。

切分起始行:开始切分的行数。如设置从第2行开始切分,则第一个切片包含表头和第2行数据。切分起始行不可以与表头范围重复。

切分行数:从切分起始行开始每个切片按照设置的切分行数进行切分。如设置切分行数为每1行,切分起始行为第2行,则第一个切片为表头+第2行,第二个切片为表头+第3行,以此类推。







2. 其他文档

支持设置默认切分、通用标识符切分、父子级标识符切分,设置后对非表格类的文档生效,知识库中除了 xlsx、xls、csv 以外的文档类型。

默认切分

产品上使用“切分模型”基于语义完整性进行切分。

通用标识符切分

系统按照用户自定义的规则将内容拆分为独立的片段,当用户输入问题后,系统使用用户问题检索切片内容,并将匹配的切片内容召回给到大模型用于答案生成。切片用于知识检索和大模型召回使用

标识符:系统将按照设置的标识符做文档切分,可以自定义设置***、###等符号,切分的标识符不在切片中展示。

切分最大长度:每个切片的最大长度,如按照标识符切分的片段超过设置的最大长度,将按照最大长度切分成多个片段,最大长度不超过4800字符。

切分重叠长度:设置切片之间重叠部分的字符长度,可以保留不同切片之间的语义关系,当实际切片长度超过设置的“切片最大长度”,系统切分的片段按照此设置生效。建议设置切分最大长度的10%作为切分重叠长度,最高可设置为“切片最大长度”的25%。







父子级标识符切分

系统按照用户自定义的规则将内容拆分为父级切片和子级切片,当用户输入问题后,系统使用用户问题检索子级切片内容,并将匹配的子级切片对应的父级切片召回给到大模型用于答案生成。子级切片用于知识检索、父级切片大模型召回使用







子级切片中设置的切片最大长度不能超过父级最大长度,且最大可设置1500字符。

子级切片与父级切片属于一对一或者多对一的关系,先将文档拆分为多个父级切片,再将父级切片拆分为1个或多个子级切片。







3. 切分内表格

支持设置文档中表格的切片格式,包括 Markdown 格式和 HTML 格式,默认值为 Markdown 格式。对文档中的表格内容或表格文档中的内容生效。

Markdown 格式效果更好,HTML 格式消耗 token 较少。

说明:

切分的片段支持在解析切分干预功能中查看,详情请参见 解析切分干预


热门文章
更多>