GeneratorStep¶
本节包含 GeneratorStep
类的 API 参考。
有关如何使用现有生成器步骤或创建自定义步骤的更多信息和示例,请参阅 教程 - 步骤 - GeneratorStep。
GeneratorStep
¶
基类: _Step
, ABC
一种特殊的 Step
类型,能够生成数据,即它不接收来自先前步骤的任何输入。
属性
名称 | 类型 | 描述 |
---|---|---|
batch_size |
RuntimeParameter[int]
|
步骤生成的批次将包含的行数。默认为 |
运行时参数
batch_size
: 步骤生成的批次将包含的行数。默认为50
。
源代码位于 src/distilabel/steps/base.py
process(offset=0)
abstractmethod
¶
定义步骤生成逻辑的方法。它应该产生输出行和一个布尔值,指示是否是最后一个批次。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
offset
|
int
|
开始生成的偏移量。默认为 0。 |
0
|
Yields
类型 | 描述 |
---|---|
GeneratorStepOutput
|
输出行和一个布尔值,指示是否是最后一个批次。 |
源代码位于 src/distilabel/steps/base.py
process_applying_mappings(offset=0)
¶
运行步骤的 process
方法,并将 outputs_mappings
应用于输出行。此函数应用于运行步骤的生成逻辑。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
offset
|
int
|
开始生成的偏移量。默认为 0。 |
0
|
Yields
类型 | 描述 |
---|---|
GeneratorStepOutput
|
输出行和一个布尔值,指示是否是最后一个批次。 |
源代码位于 src/distilabel/steps/base.py
make_generator_step(dataset, pipeline=None, batch_size=50, input_mappings=None, output_mappings=None, resources=StepResources(), repo_id='default_name')
¶
用于从数据集创建 GeneratorStep
的辅助方法,以简化操作
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
dataset
|
Union[Dataset, DataFrame, List[Dict[str, str]]]
|
要在 |
必需 |
batch_size
|
int
|
batch_size,将默认为 |
50
|
input_mappings
|
Optional[Dict[str, str]]
|
应用与任何其他步骤相同。默认为 |
None
|
output_mappings
|
Optional[Dict[str, str]]
|
应用与任何其他步骤相同。默认为 |
None
|
resources
|
StepResources
|
应用与任何其他步骤相同。默认为 |
StepResources()
|
repo_id
|
Optional[str]
|
要在 |
'default_name'
|
Raises
类型 | 描述 |
---|---|
ValueError
|
如果格式与支持的格式不同。 |
Returns
类型 | 描述 |
---|---|
GeneratorStep
|
如果输入是字典列表,则返回 |
GeneratorStep
|
如果输入是 |