跳到内容

LoadDataFromDicts

从字典列表加载数据集。

GeneratorStep,它从字典列表加载数据集并批量生成。

属性

  • data: 要从中加载数据的字典列表。

运行时参数

  • batch_size: 处理数据时使用的批量大小。

输入 & 输出列

graph TD
    subgraph Dataset
        subgraph New columns
            OCOL0[dynamic]
        end
    end

    subgraph LoadDataFromDicts
        StepOutput[Output Columns: dynamic]
    end

    StepOutput --> OCOL0

输出

  • dynamic (基于列表第一个字典中找到的键): 数据集的列。

示例

从字典列表加载数据

from distilabel.steps import LoadDataFromDicts

loader = LoadDataFromDicts(
    data=[{"instruction": "What are 2+2?"}] * 5,
    batch_size=2
)
loader.load()

result = next(loader.process())
# >>> result
# ([{'instruction': 'What are 2+2?'}, {'instruction': 'What are 2+2?'}], False)