任务库¶

类别概览

库页面展示了 distilabel 中不同类型的组件。

图标	类别	描述
	text-generation	文本生成步骤用于基于给定的提示生成文本。
	chat-generation	聊天生成步骤用于基于对话生成文本。
	text-classification	文本分类步骤用于将文本分类到类别中。
	text-manipulation	文本操作步骤用于操作或重写输入文本。
	evol	Evol 步骤用于重写输入文本并将其演变为更高质量。
	critique	Critique 步骤用于提供关于数据质量的反馈，并附带书面解释。
	scorer	Scorer 步骤用于评估数据并用数值评分。
	preference	Preference 步骤用于收集关于数据的偏好，使用数值或排名。
	embedding	Embedding 步骤用于为数据生成嵌入向量。
	clustering	Clustering 步骤用于将相似的数据点分组在一起。
	columns	Columns 步骤用于操作数据中的列。
	filtering	Filtering 步骤用于基于某些条件过滤数据。
	format	Format 步骤用于格式化数据。
	load	Load 步骤用于加载数据。
	execution	执行 python 函数。
	save	Save 步骤用于保存数据。
	image-generation	图像生成步骤用于基于给定的提示生成图像。
	labelling	Labelling 步骤用于标注数据。

APIGenGenerator

为给定函数生成 JSON 格式的查询和答案。

APIGenGenerator
Genstruct

使用 LLM 从文档中生成指令-响应对。

Genstruct
Magpie

使用指令微调的 LLM 生成对话。

Magpie
MathShepherdCompleter

Math Shepherd 完成器和自动标注器任务。

MathShepherdCompleter
MathShepherdGenerator

Math Shepherd 解决方案生成器。

MathShepherdGenerator
SelfInstruct

使用 LLM 基于给定的输入生成指令。

SelfInstruct
TextGeneration

使用 LLM 根据给定的提示生成文本。

TextGeneration
TextGenerationWithImage

使用 LLM 根据给定的提示和图像生成文本。

TextGenerationWithImage
URIAL

使用非指令微调模型生成响应。

URIAL
MagpieGenerator

生成器任务，使用 Magpie 生成指令或对话。

MagpieGenerator
ChatGeneration

基于对话生成文本。

ChatGeneration
ArgillaLabeller

根据输入字段、示例记录和问题设置，标注 Argilla 记录。

ArgillaLabeller
TextClassification

将文本分类为一个或多个类别或标签。

TextClassification
EvolInstruct

使用 LLM 演化指令。

EvolInstruct
EvolComplexity

演化指令，使用 LLM 使其更复杂。

EvolComplexity
EvolQuality

使用 LLM 演化响应的质量。

EvolQuality
EvolInstructGenerator

使用 LLM 生成演化后的指令。

EvolInstructGenerator
EvolComplexityGenerator

使用 LLM 生成复杂度增加的演化指令。

EvolComplexityGenerator
InstructionBacktranslation

使用指令回译进行自我对齐。

InstructionBacktranslation
PrometheusEval

使用 Prometheus 2.0 批判和排序 LLM 生成的质量。

PrometheusEval
ComplexityScorer

使用 LLM 根据指令的复杂性对其进行评分。

ComplexityScorer
QualityScorer

使用 LLM 根据响应的质量对其进行评分。

QualityScorer
CLAIR

来自 AI 修订的对比学习 (CLAIR)。

CLAIR
UltraFeedback

使用 LLM 对关注不同方面的生成结果进行排序。

UltraFeedback
PairRM

使用 LLM 模型根据输入对候选结果进行排序。

PairRM
GenerateSentencePair

给定一个锚定句子，生成一个正面和一个负面（可选）句子。

GenerateSentencePair
GenerateEmbeddings

使用 LLM 的最后一个隐藏状态生成嵌入向量。

GenerateEmbeddings
TextClustering

对一组文本进行聚类并为每个集群生成摘要标签的任务。

TextClustering
TextClustering

对一组文本进行聚类并为每个集群生成摘要标签的任务。

TextClustering
APIGenSemanticChecker

为给定函数生成 JSON 格式的查询和答案。

APIGenSemanticChecker
ImageGeneration

使用图像到文本模型根据提示生成图像。

ImageGeneration
GenerateTextRetrievalData

使用 LLM 生成文本检索数据，以便稍后训练嵌入模型。

GenerateTextRetrievalData
GenerateShortTextMatchingData

使用 LLM 生成短文本匹配数据，以便稍后训练嵌入模型。

GenerateShortTextMatchingData
GenerateLongTextMatchingData

使用 LLM 生成长文本匹配数据，以便稍后训练嵌入模型。

GenerateLongTextMatchingData
GenerateTextClassificationData

使用 LLM 生成文本分类数据，以便稍后训练嵌入模型。

GenerateTextClassificationData
StructuredGeneration

使用 LLM 为给定的 instruction 生成结构化内容。

StructuredGeneration
MonolingualTripletGenerator

使用 LLM 生成单语三元组，以便稍后训练嵌入模型。

MonolingualTripletGenerator
BitextRetrievalGenerator

使用 LLM 生成双语文本检索数据，以便稍后训练嵌入模型。

BitextRetrievalGenerator
EmbeddingTaskGenerator

使用 LLM 为嵌入相关任务生成任务描述。

EmbeddingTaskGenerator