Text Splitters


当你想处理长篇文本时,有必要将文本拆分成若干个片段。 虽然听起来很简单,但其中却蕴含着许多潜在的复杂性。理想情况下,你希望将语义相关的文本片段放在一起。何为“语义相关”可能取决于文本的类型。本笔记本展示了实现这一目标的几种方法。

从宏观层面来看,文本分割器的工作原理如下:

  1. 将文本拆分成小的、语义上有意义的片段(通常是句子)。

  2. 开始将这些小块合并成一个大块,直到达到一定的大小(由某个函数来衡量)。

  3. 一旦你达到了那个规模,就将那一部分单独作为一段文本,然后开始创建一段新的文本,并保持部分重叠(以保持各段之间的上下文连贯性)。

这意味着你可以沿着两个不同的维度来定制你的文本分割器:

  1. 文本是如何分割的

  2. 块大小的测量方法

文本分割器节点:

Last updated