DBSCAN¶
DBSCAN(基于密度的噪声应用空间聚类)查找核心
高密度区域的样本并从中扩展集群。此算法适用于包含相似密度集群的数据。
This is a `GlobalStep` that clusters the embeddings using the DBSCAN algorithm
from `sklearn`. Visit `TextClustering` step for an example of use.
The trained model is saved as an artifact when creating a distiset
and pushing it to the Hugging Face Hub.
属性¶
- eps: 两个样本之间被认为在彼此邻域内的最大距离。 这不是集群内点距离的最大边界。 这是为您的数据集和距离函数适当选择的最重要的 DBSCAN 参数。 - min_samples: 邻域中被认为是一个核心点的样本数(或总权重)。 这包括该点本身。 如果
min_samples
设置为较高的值,DBSCAN 将找到更密集的集群,而如果设置为较低的值,则找到的集群将更稀疏。 - metric: 用于计算特征数组中实例之间距离的度量。 如果 metric 是字符串或可调用对象,则它必须是sklearn.metrics.pairwise_distances
允许的 metric 参数的选项之一。 - n_jobs: 要运行的并行作业数。
运行时参数¶
-
eps: 两个样本之间被认为在彼此邻域内的最大距离。 这不是集群内点距离的最大边界。 这是为您的数据集和距离函数适当选择的最重要的 DBSCAN 参数。
-
min_samples: 邻域中被认为是一个核心点的样本数(或总权重)。 这包括该点本身。 如果
min_samples
设置为较高的值,DBSCAN 将找到更密集的集群,而如果设置为较低的值,则找到的集群将更稀疏。 -
metric: 用于计算特征数组中实例之间距离的度量。 如果 metric 是字符串或可调用对象,则它必须是
sklearn.metrics.pairwise_distances
允许的 metric 参数的选项之一。 -
n_jobs: 要运行的并行作业数。
输入 & 输出列¶
graph TD
subgraph Dataset
subgraph Columns
ICOL0[projection]
end
subgraph New columns
OCOL0[cluster_label]
end
end
subgraph DBSCAN
StepInput[Input Columns: projection]
StepOutput[Output Columns: cluster_label]
end
ICOL0 --> StepInput
StepOutput --> OCOL0
StepInput --> StepOutput
输入¶
- projection (
List[float]
): 要聚类的文本的向量表示,通常是UMAP
step 的输出。
输出¶
- cluster_label (
int
): 表示给定集群标签的整数。 -1 表示未聚类。