Steps 库¶

类别概览

库页面展示了 distilabel 中不同类型的组件。

图标	类别	描述
	text-generation	文本生成 steps 用于根据给定的提示生成文本。
	chat-generation	聊天生成 steps 用于根据对话生成文本。
	text-classification	文本分类 steps 用于将文本分类到某个类别。
	text-manipulation	文本操作 steps 用于操作或重写输入文本。
	evol	Evol steps 用于重写输入文本并将其演变为更高质量。
	critique	Critique steps 用于提供关于数据质量的反馈，并附带书面解释。
	scorer	Scorer steps 用于评估数据并用数值进行评分。
	preference	Preference steps 用于收集关于数据的偏好，使用数值或排名。
	embedding	Embedding steps 用于为数据生成 embeddings。
	clustering	Clustering steps 用于将相似的数据点分组在一起。
	columns	Columns steps 用于操作数据中的列。
	filtering	Filtering steps 用于根据某些标准过滤数据。
	format	Format steps 用于格式化数据。
	load	Load steps 用于加载数据。
	execution	执行 python 函数。
	save	Save steps 用于保存数据。
	image-generation	图像生成 steps 用于根据给定的提示生成图像。
	labelling	Labelling steps 用于标记数据。

PreferenceToArgilla

在 Argilla 中创建偏好数据集。

PreferenceToArgilla
TextGenerationToArgilla

在 Argilla 中创建文本生成数据集。

TextGenerationToArgilla
PushToHub

将数据推送到 Hugging Face Hub 数据集。

PushToHub
LoadDataFromDicts

从字典列表加载数据集。

LoadDataFromDicts
DataSampler

从数据集采样的 Step。

DataSampler
LoadDataFromHub

从 Hugging Face Hub 加载数据集。

LoadDataFromHub
LoadDataFromFileSystem

从文件系统中的文件加载数据集。

LoadDataFromFileSystem
LoadDataFromDisk

加载先前保存到磁盘的数据集。

LoadDataFromDisk
PrepareExamples

Helper step，用于从 query 和 answers 对创建示例，用作 APIGen 中的 Few Shots。

PrepareExamples
ConversationTemplate

从指令和响应生成对话模板。

ConversationTemplate
FormatTextGenerationDPO

为直接偏好优化 (DPO) 格式化 LLM 的输出。

FormatTextGenerationDPO
FormatChatGenerationDPO

为 ChatGeneration + 偏好任务的组合输出格式化，用于直接偏好优化 (DPO)。

FormatChatGenerationDPO
FormatTextGenerationSFT

为监督式微调 (SFT) 格式化 TextGeneration 任务的输出。

FormatTextGenerationSFT
FormatChatGenerationSFT

为监督式微调 (SFT) 格式化 ChatGeneration 任务的输出。

FormatChatGenerationSFT
DeitaFiltering

使用 DEITA 过滤策略过滤数据集行。

DeitaFiltering
EmbeddingDedup

使用 embeddings 去重文本。

EmbeddingDedup
APIGenExecutionChecker

执行生成的函数调用。

APIGenExecutionChecker
MinHashDedup

使用 MinHash 和 MinHashLSH 去重文本。

MinHashDedup
CombineOutputs

合并多个上游 steps 的输出。

CombineOutputs
ExpandColumns

将包含列表的列扩展为多行。

ExpandColumns
GroupColumns

合并来自 StepInput 列表的列。

GroupColumns
KeepColumns

在数据集中保留选定的列。

KeepColumns
MergeColumns

合并一行中的列。

MergeColumns
DBSCAN

DBSCAN（基于密度的噪声应用空间聚类）查找核心

DBSCAN
UMAP

UMAP 是一种通用的流形学习和降维算法。

UMAP
FaissNearestNeighbour

创建 faiss 索引以获得最近邻居。

FaissNearestNeighbour
EmbeddingGeneration

使用 Embeddings 模型生成 embeddings。

EmbeddingGeneration
RewardModelScore

使用 Reward Model 为响应分配分数。

RewardModelScore
FormatPRM

Helper step，用于将数据转换为 PRM 模型期望的格式。

FormatPRM
TruncateTextColumn

使用 tokenizer 或字符数截断行。

TruncateTextColumn