跳到内容

EvolComplexityGenerator

使用 LLM 生成具有增加复杂性的演化指令。

EvolComplexityGenerator 是一个生成任务,用于演化指令使其更复杂,它基于 EvolInstruct 任务,但使用略有不同的提示,但采用完全相同的演化方法。

属性

  • num_instructions: 要生成的指令数量。

  • generate_answers: 是否为指令生成答案。默认为 False

  • mutation_templates: 用于生成指令的突变模板。

  • min_length: 定义生成的指令需要高于的最小长度(以字节为单位),才被视为有效。默认为 512

  • max_length: 定义生成的指令需要低于的最大长度(以字节为单位),才被视为有效。默认为 1024

  • seed: 为 numpy 设置的种子,以便随机选择突变方法。默认为 42

运行时参数

  • min_length: 定义生成的指令需要高于的最小长度(以字节为单位),才被视为有效。

  • max_length: 定义生成的指令需要低于的最大长度(以字节为单位),才被视为有效。

  • seed: 要运行的演化次数。

输入 & 输出列

graph TD
    subgraph Dataset
        subgraph New columns
            OCOL0[instruction]
            OCOL1[answer]
            OCOL2[model_name]
        end
    end

    subgraph EvolComplexityGenerator
        StepOutput[Output Columns: instruction, answer, model_name]
    end

    StepOutput --> OCOL0
    StepOutput --> OCOL1
    StepOutput --> OCOL2

输出

  • instruction (str): 演化指令。

  • answer (str, optional): 指令的答案(如果 generate_answers=True)。

  • model_name (str): 用于演化指令的 LLM 的名称。

示例

生成没有初始指令的演化指令

from distilabel.steps.tasks import EvolComplexityGenerator
from distilabel.models import InferenceEndpointsLLM

# Consider this as a placeholder for your actual LLM.
evol_complexity_generator = EvolComplexityGenerator(
    llm=InferenceEndpointsLLM(
        model_id="mistralai/Mistral-7B-Instruct-v0.2",
    ),
    num_instructions=2,
)

evol_complexity_generator.load()

result = next(scorer.process())
# result
# [{'instruction': 'generated instruction', 'model_name': 'test'}]

参考文献