任务库¶
类别概览
库页面展示了 distilabel
中不同类型的组件。
图标 | 类别 | 描述 |
---|---|---|
text-generation | 文本生成步骤用于基于给定的提示生成文本。 | |
chat-generation | 聊天生成步骤用于基于对话生成文本。 | |
text-classification | 文本分类步骤用于将文本分类到类别中。 | |
text-manipulation | 文本操作步骤用于操作或重写输入文本。 | |
evol | Evol 步骤用于重写输入文本并将其演变为更高质量。 | |
critique | Critique 步骤用于提供关于数据质量的反馈,并附带书面解释。 | |
scorer | Scorer 步骤用于评估数据并用数值评分。 | |
preference | Preference 步骤用于收集关于数据的偏好,使用数值或排名。 | |
embedding | Embedding 步骤用于为数据生成嵌入向量。 | |
clustering | Clustering 步骤用于将相似的数据点分组在一起。 | |
columns | Columns 步骤用于操作数据中的列。 | |
filtering | Filtering 步骤用于基于某些条件过滤数据。 | |
format | Format 步骤用于格式化数据。 | |
load | Load 步骤用于加载数据。 | |
execution | 执行 python 函数。 | |
save | Save 步骤用于保存数据。 | |
image-generation | 图像生成步骤用于基于给定的提示生成图像。 | |
labelling | Labelling 步骤用于标注数据。 |
-
APIGenGenerator
为给定函数生成 JSON 格式的查询和答案。
-
Genstruct
使用
LLM
从文档中生成指令-响应对。 -
Magpie
使用指令微调的 LLM 生成对话。
-
MathShepherdCompleter
Math Shepherd 完成器和自动标注器任务。
-
MathShepherdGenerator
Math Shepherd 解决方案生成器。
-
SelfInstruct
使用
LLM
基于给定的输入生成指令。 -
TextGeneration
使用
LLM
根据给定的提示生成文本。 -
TextGenerationWithImage
使用
LLM
根据给定的提示和图像生成文本。 -
URIAL
使用非指令微调模型生成响应。
-
MagpieGenerator
生成器任务,使用 Magpie 生成指令或对话。
-
ChatGeneration
基于对话生成文本。
-
ArgillaLabeller
根据输入字段、示例记录和问题设置,标注 Argilla 记录。
-
TextClassification
将文本分类为一个或多个类别或标签。
-
EvolInstruct
使用
LLM
演化指令。 -
EvolComplexity
演化指令,使用
LLM
使其更复杂。 -
EvolQuality
使用
LLM
演化响应的质量。 -
EvolInstructGenerator
使用
LLM
生成演化后的指令。 -
EvolComplexityGenerator
使用
LLM
生成复杂度增加的演化指令。 -
InstructionBacktranslation
使用指令回译进行自我对齐。
-
PrometheusEval
使用 Prometheus 2.0 批判和排序
LLM
生成的质量。 -
ComplexityScorer
使用
LLM
根据指令的复杂性对其进行评分。 -
QualityScorer
使用
LLM
根据响应的质量对其进行评分。 -
CLAIR
来自 AI 修订的对比学习 (CLAIR)。
-
UltraFeedback
使用
LLM
对关注不同方面的生成结果进行排序。 -
PairRM
使用
LLM
模型根据输入对候选结果进行排序。 -
GenerateSentencePair
给定一个锚定句子,生成一个正面和一个负面(可选)句子。
-
GenerateEmbeddings
使用
LLM
的最后一个隐藏状态生成嵌入向量。 -
TextClustering
对一组文本进行聚类并为每个集群生成摘要标签的任务。
-
TextClustering
对一组文本进行聚类并为每个集群生成摘要标签的任务。
-
APIGenSemanticChecker
为给定函数生成 JSON 格式的查询和答案。
-
ImageGeneration
使用图像到文本模型根据提示生成图像。
-
GenerateTextRetrievalData
使用
LLM
生成文本检索数据,以便稍后训练嵌入模型。 -
GenerateShortTextMatchingData
使用
LLM
生成短文本匹配数据,以便稍后训练嵌入模型。 -
GenerateLongTextMatchingData
使用
LLM
生成长文本匹配数据,以便稍后训练嵌入模型。 -
GenerateTextClassificationData
使用
LLM
生成文本分类数据,以便稍后训练嵌入模型。 -
StructuredGeneration
使用
LLM
为给定的instruction
生成结构化内容。 -
MonolingualTripletGenerator
使用
LLM
生成单语三元组,以便稍后训练嵌入模型。 -
BitextRetrievalGenerator
使用
LLM
生成双语文本检索数据,以便稍后训练嵌入模型。 -
EmbeddingTaskGenerator
使用
LLM
为嵌入相关任务生成任务描述。