跳到内容

Distilabel 文档

DBSCAN

argilla-io/distilabel

DBSCAN¶

DBSCAN（基于密度的噪声应用空间聚类）查找核心

高密度区域的样本并从中扩展集群。此算法适用于包含相似密度集群的数据。

This is a `GlobalStep` that clusters the embeddings using the DBSCAN algorithm
from `sklearn`. Visit `TextClustering` step for an example of use.
The trained model is saved as an artifact when creating a distiset
and pushing it to the Hugging Face Hub.

属性¶

eps: 两个样本之间被认为在彼此邻域内的最大距离。这不是集群内点距离的最大边界。这是为您的数据集和距离函数适当选择的最重要的 DBSCAN 参数。 - min_samples: 邻域中被认为是一个核心点的样本数（或总权重）。这包括该点本身。如果 min_samples 设置为较高的值，DBSCAN 将找到更密集的集群，而如果设置为较低的值，则找到的集群将更稀疏。 - metric: 用于计算特征数组中实例之间距离的度量。如果 metric 是字符串或可调用对象，则它必须是 sklearn.metrics.pairwise_distances 允许的 metric 参数的选项之一。 - n_jobs: 要运行的并行作业数。

运行时参数¶

eps: 两个样本之间被认为在彼此邻域内的最大距离。这不是集群内点距离的最大边界。这是为您的数据集和距离函数适当选择的最重要的 DBSCAN 参数。
min_samples: 邻域中被认为是一个核心点的样本数（或总权重）。这包括该点本身。如果 min_samples 设置为较高的值，DBSCAN 将找到更密集的集群，而如果设置为较低的值，则找到的集群将更稀疏。
metric: 用于计算特征数组中实例之间距离的度量。如果 metric 是字符串或可调用对象，则它必须是 sklearn.metrics.pairwise_distances 允许的 metric 参数的选项之一。
n_jobs: 要运行的并行作业数。

输入 & 输出列¶

graph TD
    subgraph Dataset
        subgraph Columns
            ICOL0[projection]
        end
        subgraph New columns
            OCOL0[cluster_label]
        end
    end

    subgraph DBSCAN
        StepInput[Input Columns: projection]
        StepOutput[Output Columns: cluster_label]
    end

    ICOL0 --> StepInput
    StepOutput --> OCOL0
    StepInput --> StepOutput

输入¶

projection (List[float]): 要聚类的文本的向量表示，通常是 UMAP step 的输出。

输出¶

cluster_label (int): 表示给定集群标签的整数。 -1 表示未聚类。

参考¶