跳到内容

Distilabel 文档

UMAP

argilla-io/distilabel

UMAP¶

UMAP 是一种通用的流形学习和降维算法。

这是一个 GlobalStep，它使用以下方法降低嵌入的维度。访问 TextClustering 步骤以获取使用示例。训练后的模型在创建 distiset 并将其推送到 Hugging Face Hub 时保存为工件。

属性¶

n_components: 要嵌入的空间的维度。默认为 2 以提供简单的可视化（这可能是您想要的），但可以合理地设置为 2 到 100 范围内的任何整数值。 - metric: 用于计算高维空间距离的度量。访问 UMAP 的文档以获取更多信息。默认为 euclidean。 - n_jobs: 要运行的并行作业数。默认为 8。 - random_state: 用于 UMAP 算法的随机状态。

运行时参数¶

n_components: 要嵌入的空间的维度。默认为 2 以提供简单的可视化（这可能是您想要的），但可以合理地设置为 2 到 100 范围内的任何整数值。
metric: 用于计算高维空间距离的度量。访问 UMAP 的文档以获取更多信息。默认为 euclidean。
n_jobs: 要运行的并行作业数。默认为 8。
random_state: 用于 UMAP 算法的随机状态。

输入 & 输出列¶

graph TD
    subgraph Dataset
        subgraph Columns
            ICOL0[embedding]
        end
        subgraph New columns
            OCOL0[projection]
        end
    end

    subgraph UMAP
        StepInput[Input Columns: embedding]
        StepOutput[Output Columns: projection]
    end

    ICOL0 --> StepInput
    StepOutput --> OCOL0
    StepInput --> StepOutput

输入¶

embedding (List[float]): 我们要降低维度的原始嵌入。

输出¶

projection (List[float]): 减少到指定组件数量的嵌入，新嵌入的大小将由 n_components 确定。

参考文献¶