UMAP¶
UMAP 是一种通用的流形学习和降维算法。
这是一个 GlobalStep
,它使用以下方法降低嵌入的维度。访问 TextClustering
步骤以获取使用示例。训练后的模型在创建 distiset 并将其推送到 Hugging Face Hub 时保存为工件。
属性¶
- n_components: 要嵌入的空间的维度。 默认为 2 以提供简单的可视化(这可能是您想要的),但可以合理地设置为 2 到 100 范围内的任何整数值。 - metric: 用于计算高维空间距离的度量。 访问 UMAP 的文档以获取更多信息。 默认为
euclidean
。 - n_jobs: 要运行的并行作业数。 默认为8
。 - random_state: 用于 UMAP 算法的随机状态。
运行时参数¶
-
n_components: 要嵌入的空间的维度。 默认为 2 以提供简单的可视化(这可能是您想要的),但可以合理地设置为 2 到 100 范围内的任何整数值。
-
metric: 用于计算高维空间距离的度量。 访问 UMAP 的文档以获取更多信息。 默认为
euclidean
。 -
n_jobs: 要运行的并行作业数。 默认为
8
。 -
random_state: 用于 UMAP 算法的随机状态。
输入 & 输出列¶
graph TD
subgraph Dataset
subgraph Columns
ICOL0[embedding]
end
subgraph New columns
OCOL0[projection]
end
end
subgraph UMAP
StepInput[Input Columns: embedding]
StepOutput[Output Columns: projection]
end
ICOL0 --> StepInput
StepOutput --> OCOL0
StepInput --> StepOutput
输入¶
- embedding (
List[float]
): 我们要降低维度的原始嵌入。
输出¶
- projection (
List[float]
): 减少到指定组件数量的嵌入,新嵌入的大小将由n_components
确定。