跳到内容

UMAP

UMAP 是一种通用的流形学习和降维算法。

这是一个 GlobalStep,它使用以下方法降低嵌入的维度。访问 TextClustering 步骤以获取使用示例。训练后的模型在创建 distiset 并将其推送到 Hugging Face Hub 时保存为工件。

属性

  • n_components: 要嵌入的空间的维度。 默认为 2 以提供简单的可视化(这可能是您想要的),但可以合理地设置为 2 到 100 范围内的任何整数值。 - metric: 用于计算高维空间距离的度量。 访问 UMAP 的文档以获取更多信息。 默认为 euclidean。 - n_jobs: 要运行的并行作业数。 默认为 8。 - random_state: 用于 UMAP 算法的随机状态。

运行时参数

  • n_components: 要嵌入的空间的维度。 默认为 2 以提供简单的可视化(这可能是您想要的),但可以合理地设置为 2 到 100 范围内的任何整数值。

  • metric: 用于计算高维空间距离的度量。 访问 UMAP 的文档以获取更多信息。 默认为 euclidean

  • n_jobs: 要运行的并行作业数。 默认为 8

  • random_state: 用于 UMAP 算法的随机状态。

输入 & 输出列

graph TD
    subgraph Dataset
        subgraph Columns
            ICOL0[embedding]
        end
        subgraph New columns
            OCOL0[projection]
        end
    end

    subgraph UMAP
        StepInput[Input Columns: embedding]
        StepOutput[Output Columns: projection]
    end

    ICOL0 --> StepInput
    StepOutput --> OCOL0
    StepInput --> StepOutput

输入

  • embedding (List[float]): 我们要降低维度的原始嵌入。

输出

  • projection (List[float]): 减少到指定组件数量的嵌入,新嵌入的大小将由 n_components 确定。

参考文献