跳到内容

LoadDataFromHub

从 Hugging Face Hub 加载数据集。

GeneratorStep,使用 datasets 库从 Hugging Face Hub 加载数据集。

属性

  • repo_id: 要加载的数据集的 Hugging Face Hub 仓库 ID。

  • split: 要加载的数据集拆分。

  • config: 要加载的数据集的配置。这是可选的,仅当数据集具有多个配置时才需要。

运行时参数

  • batch_size: 处理数据时使用的批量大小。

  • repo_id: 要加载的数据集的 Hugging Face Hub 仓库 ID。

  • split: 要加载的数据集拆分。默认为 'train'。

  • config: 要加载的数据集的配置。这是可选的,仅当数据集具有多个配置时才需要。

  • revision: 要加载的数据集修订版本。默认为最新修订版本。

  • streaming: 是否以流式模式加载数据集。默认为 False

  • num_examples: 要从数据集加载的示例数量。默认情况下将加载所有示例。

  • storage_options: 要传递给文件系统后端的键/值对(如果有)。默认为 None

输入和输出列

graph TD
    subgraph Dataset
        subgraph New columns
            OCOL0[dynamic]
        end
    end

    subgraph LoadDataFromHub
        StepOutput[Output Columns: dynamic]
    end

    StepOutput --> OCOL0

输出

  • dynamic (all): 此步骤将生成的列,基于从 Hugging Face Hub 加载的数据集。

示例

从 Hugging Face Hub 中的数据集加载数据

from distilabel.steps import LoadDataFromHub

loader = LoadDataFromHub(
    repo_id="distilabel-internal-testing/instruction-dataset-mini",
    split="test",
    batch_size=2
)
loader.load()

# Just like we saw with LoadDataFromDicts, the `process` method will yield batches.
result = next(loader.process())
# >>> result
# ([{'prompt': 'Arianna has 12...', False)