跳到内容

DBSCAN

DBSCAN(基于密度的噪声应用空间聚类)查找核心

高密度区域的样本并从中扩展集群。此算法适用于包含相似密度集群的数据。

This is a `GlobalStep` that clusters the embeddings using the DBSCAN algorithm
from `sklearn`. Visit `TextClustering` step for an example of use.
The trained model is saved as an artifact when creating a distiset
and pushing it to the Hugging Face Hub.

属性

  • eps: 两个样本之间被认为在彼此邻域内的最大距离。 这不是集群内点距离的最大边界。 这是为您的数据集和距离函数适当选择的最重要的 DBSCAN 参数。 - min_samples: 邻域中被认为是一个核心点的样本数(或总权重)。 这包括该点本身。 如果 min_samples 设置为较高的值,DBSCAN 将找到更密集的集群,而如果设置为较低的值,则找到的集群将更稀疏。 - metric: 用于计算特征数组中实例之间距离的度量。 如果 metric 是字符串或可调用对象,则它必须是 sklearn.metrics.pairwise_distances 允许的 metric 参数的选项之一。 - n_jobs: 要运行的并行作业数。

运行时参数

  • eps: 两个样本之间被认为在彼此邻域内的最大距离。 这不是集群内点距离的最大边界。 这是为您的数据集和距离函数适当选择的最重要的 DBSCAN 参数。

  • min_samples: 邻域中被认为是一个核心点的样本数(或总权重)。 这包括该点本身。 如果 min_samples 设置为较高的值,DBSCAN 将找到更密集的集群,而如果设置为较低的值,则找到的集群将更稀疏。

  • metric: 用于计算特征数组中实例之间距离的度量。 如果 metric 是字符串或可调用对象,则它必须是 sklearn.metrics.pairwise_distances 允许的 metric 参数的选项之一。

  • n_jobs: 要运行的并行作业数。

输入 & 输出列

graph TD
    subgraph Dataset
        subgraph Columns
            ICOL0[projection]
        end
        subgraph New columns
            OCOL0[cluster_label]
        end
    end

    subgraph DBSCAN
        StepInput[Input Columns: projection]
        StepOutput[Output Columns: cluster_label]
    end

    ICOL0 --> StepInput
    StepOutput --> OCOL0
    StepInput --> StepOutput

输入

  • projection (List[float]): 要聚类的文本的向量表示,通常是 UMAP step 的输出。

输出

  • cluster_label (int): 表示给定集群标签的整数。 -1 表示未聚类。

参考