Steps 库¶
类别概览
库页面展示了 distilabel
中不同类型的组件。
图标 | 类别 | 描述 |
---|---|---|
text-generation | 文本生成 steps 用于根据给定的提示生成文本。 | |
chat-generation | 聊天生成 steps 用于根据对话生成文本。 | |
text-classification | 文本分类 steps 用于将文本分类到某个类别。 | |
text-manipulation | 文本操作 steps 用于操作或重写输入文本。 | |
evol | Evol steps 用于重写输入文本并将其演变为更高质量。 | |
critique | Critique steps 用于提供关于数据质量的反馈,并附带书面解释。 | |
scorer | Scorer steps 用于评估数据并用数值进行评分。 | |
preference | Preference steps 用于收集关于数据的偏好,使用数值或排名。 | |
embedding | Embedding steps 用于为数据生成 embeddings。 | |
clustering | Clustering steps 用于将相似的数据点分组在一起。 | |
columns | Columns steps 用于操作数据中的列。 | |
filtering | Filtering steps 用于根据某些标准过滤数据。 | |
format | Format steps 用于格式化数据。 | |
load | Load steps 用于加载数据。 | |
execution | 执行 python 函数。 | |
save | Save steps 用于保存数据。 | |
image-generation | 图像生成 steps 用于根据给定的提示生成图像。 | |
labelling | Labelling steps 用于标记数据。 |
-
PreferenceToArgilla
在 Argilla 中创建偏好数据集。
-
TextGenerationToArgilla
在 Argilla 中创建文本生成数据集。
-
PushToHub
将数据推送到 Hugging Face Hub 数据集。
-
LoadDataFromDicts
从字典列表加载数据集。
-
DataSampler
从数据集采样的 Step。
-
LoadDataFromHub
从 Hugging Face Hub 加载数据集。
-
LoadDataFromFileSystem
从文件系统中的文件加载数据集。
-
LoadDataFromDisk
加载先前保存到磁盘的数据集。
-
PrepareExamples
Helper step,用于从
query
和answers
对创建示例,用作 APIGen 中的 Few Shots。 -
ConversationTemplate
从指令和响应生成对话模板。
-
FormatTextGenerationDPO
为直接偏好优化 (DPO) 格式化 LLM 的输出。
-
FormatChatGenerationDPO
为
ChatGeneration
+ 偏好任务的组合输出格式化,用于直接偏好优化 (DPO)。 -
FormatTextGenerationSFT
为监督式微调 (SFT) 格式化
TextGeneration
任务的输出。 -
FormatChatGenerationSFT
为监督式微调 (SFT) 格式化
ChatGeneration
任务的输出。 -
DeitaFiltering
使用 DEITA 过滤策略过滤数据集行。
-
EmbeddingDedup
使用 embeddings 去重文本。
-
APIGenExecutionChecker
执行生成的函数调用。
-
MinHashDedup
使用
MinHash
和MinHashLSH
去重文本。 -
CombineOutputs
合并多个上游 steps 的输出。
-
ExpandColumns
将包含列表的列扩展为多行。
-
GroupColumns
合并来自
StepInput
列表的列。 -
KeepColumns
在数据集中保留选定的列。
-
MergeColumns
合并一行中的列。
-
DBSCAN
DBSCAN(基于密度的噪声应用空间聚类)查找核心
-
UMAP
UMAP 是一种通用的流形学习和降维算法。
-
FaissNearestNeighbour
创建
faiss
索引以获得最近邻居。 -
EmbeddingGeneration
使用
Embeddings
模型生成 embeddings。 -
RewardModelScore
使用 Reward Model 为响应分配分数。
-
FormatPRM
Helper step,用于将数据转换为 PRM 模型期望的格式。
-
TruncateTextColumn
使用 tokenizer 或字符数截断行。