跳到内容

任务库

类别概览

库页面展示了 distilabel 中不同类型的组件。

图标 类别 描述
text-generation 文本生成步骤用于基于给定的提示生成文本。
chat-generation 聊天生成步骤用于基于对话生成文本。
text-classification 文本分类步骤用于将文本分类到类别中。
text-manipulation 文本操作步骤用于操作或重写输入文本。
evol Evol 步骤用于重写输入文本并将其演变为更高质量。
critique Critique 步骤用于提供关于数据质量的反馈,并附带书面解释。
scorer Scorer 步骤用于评估数据并用数值评分。
preference Preference 步骤用于收集关于数据的偏好,使用数值或排名。
embedding Embedding 步骤用于为数据生成嵌入向量。
clustering Clustering 步骤用于将相似的数据点分组在一起。
columns Columns 步骤用于操作数据中的列。
filtering Filtering 步骤用于基于某些条件过滤数据。
format Format 步骤用于格式化数据。
load Load 步骤用于加载数据。
execution 执行 python 函数。
save Save 步骤用于保存数据。
image-generation 图像生成步骤用于基于给定的提示生成图像。
🏷 labelling Labelling 步骤用于标注数据。
  • APIGenGenerator


    为给定函数生成 JSON 格式的查询和答案。

    APIGenGenerator

  • Genstruct


    使用 LLM 从文档中生成指令-响应对。

    Genstruct

  • Magpie


    使用指令微调的 LLM 生成对话。

    Magpie

  • MathShepherdCompleter


    Math Shepherd 完成器和自动标注器任务。

    MathShepherdCompleter

  • MathShepherdGenerator


    Math Shepherd 解决方案生成器。

    MathShepherdGenerator

  • SelfInstruct


    使用 LLM 基于给定的输入生成指令。

    SelfInstruct

  • TextGeneration


    使用 LLM 根据给定的提示生成文本。

    TextGeneration

  • TextGenerationWithImage


    使用 LLM 根据给定的提示和图像生成文本。

    TextGenerationWithImage

  • URIAL


    使用非指令微调模型生成响应。

    URIAL

  • MagpieGenerator


    生成器任务,使用 Magpie 生成指令或对话。

    MagpieGenerator

  • ChatGeneration


    基于对话生成文本。

    ChatGeneration

  • ArgillaLabeller


    根据输入字段、示例记录和问题设置,标注 Argilla 记录。

    ArgillaLabeller

  • TextClassification


    将文本分类为一个或多个类别或标签。

    TextClassification

  • EvolInstruct


    使用 LLM 演化指令。

    EvolInstruct

  • EvolComplexity


    演化指令,使用 LLM 使其更复杂。

    EvolComplexity

  • EvolQuality


    使用 LLM 演化响应的质量。

    EvolQuality

  • EvolInstructGenerator


    使用 LLM 生成演化后的指令。

    EvolInstructGenerator

  • EvolComplexityGenerator


    使用 LLM 生成复杂度增加的演化指令。

    EvolComplexityGenerator

  • InstructionBacktranslation


    使用指令回译进行自我对齐。

    InstructionBacktranslation

  • PrometheusEval


    使用 Prometheus 2.0 批判和排序 LLM 生成的质量。

    PrometheusEval

  • ComplexityScorer


    使用 LLM 根据指令的复杂性对其进行评分。

    ComplexityScorer

  • QualityScorer


    使用 LLM 根据响应的质量对其进行评分。

    QualityScorer

  • CLAIR


    来自 AI 修订的对比学习 (CLAIR)。

    CLAIR

  • UltraFeedback


    使用 LLM 对关注不同方面的生成结果进行排序。

    UltraFeedback

  • PairRM


    使用 LLM 模型根据输入对候选结果进行排序。

    PairRM

  • GenerateSentencePair


    给定一个锚定句子,生成一个正面和一个负面(可选)句子。

    GenerateSentencePair

  • GenerateEmbeddings


    使用 LLM 的最后一个隐藏状态生成嵌入向量。

    GenerateEmbeddings

  • TextClustering


    对一组文本进行聚类并为每个集群生成摘要标签的任务。

    TextClustering

  • TextClustering


    对一组文本进行聚类并为每个集群生成摘要标签的任务。

    TextClustering

  • APIGenSemanticChecker


    为给定函数生成 JSON 格式的查询和答案。

    APIGenSemanticChecker

  • ImageGeneration


    使用图像到文本模型根据提示生成图像。

    ImageGeneration

  • GenerateTextRetrievalData


    使用 LLM 生成文本检索数据,以便稍后训练嵌入模型。

    GenerateTextRetrievalData

  • GenerateShortTextMatchingData


    使用 LLM 生成短文本匹配数据,以便稍后训练嵌入模型。

    GenerateShortTextMatchingData

  • GenerateLongTextMatchingData


    使用 LLM 生成长文本匹配数据,以便稍后训练嵌入模型。

    GenerateLongTextMatchingData

  • GenerateTextClassificationData


    使用 LLM 生成文本分类数据,以便稍后训练嵌入模型。

    GenerateTextClassificationData

  • StructuredGeneration


    使用 LLM 为给定的 instruction 生成结构化内容。

    StructuredGeneration

  • MonolingualTripletGenerator


    使用 LLM 生成单语三元组,以便稍后训练嵌入模型。

    MonolingualTripletGenerator

  • BitextRetrievalGenerator


    使用 LLM 生成双语文本检索数据,以便稍后训练嵌入模型。

    BitextRetrievalGenerator

  • EmbeddingTaskGenerator


    使用 LLM 为嵌入相关任务生成任务描述。

    EmbeddingTaskGenerator