LoadDataFromHub¶
从 Hugging Face Hub 加载数据集。
GeneratorStep
,使用 datasets
库从 Hugging Face Hub 加载数据集。
属性¶
-
repo_id: 要加载的数据集的 Hugging Face Hub 仓库 ID。
-
split: 要加载的数据集拆分。
-
config: 要加载的数据集的配置。这是可选的,仅当数据集具有多个配置时才需要。
运行时参数¶
-
batch_size: 处理数据时使用的批量大小。
-
repo_id: 要加载的数据集的 Hugging Face Hub 仓库 ID。
-
split: 要加载的数据集拆分。默认为 'train'。
-
config: 要加载的数据集的配置。这是可选的,仅当数据集具有多个配置时才需要。
-
revision: 要加载的数据集修订版本。默认为最新修订版本。
-
streaming: 是否以流式模式加载数据集。默认为
False
。 -
num_examples: 要从数据集加载的示例数量。默认情况下将加载所有示例。
-
storage_options: 要传递给文件系统后端的键/值对(如果有)。默认为
None
。
输入和输出列¶
graph TD
subgraph Dataset
subgraph New columns
OCOL0[dynamic]
end
end
subgraph LoadDataFromHub
StepOutput[Output Columns: dynamic]
end
StepOutput --> OCOL0
输出¶
- dynamic (
all
): 此步骤将生成的列,基于从 Hugging Face Hub 加载的数据集。
示例¶
从 Hugging Face Hub 中的数据集加载数据¶
from distilabel.steps import LoadDataFromHub
loader = LoadDataFromHub(
repo_id="distilabel-internal-testing/instruction-dataset-mini",
split="test",
batch_size=2
)
loader.load()
# Just like we saw with LoadDataFromDicts, the `process` method will yield batches.
result = next(loader.process())
# >>> result
# ([{'prompt': 'Arianna has 12...', False)