跳到内容

PushToHub

将数据推送到 Hugging Face Hub 数据集。

一个 GlobalStep,它使用输入数据创建一个 datasets.Dataset 并将其推送到 Hugging Face Hub。

属性

  • repo_id: Hugging Face Hub 仓库 ID,数据集将上传到该仓库。

  • split: 将被推送的数据集拆分。默认为 "train"

  • private: 要推送的数据集是否应为私有。默认为 False

  • token: 将用于在 Hub 中进行身份验证的令牌。如果未提供,将尝试从环境变量 HF_TOKEN 获取令牌。如果未使用上述方法之一提供,则 huggingface_hub 库将尝试使用来自本地 Hugging Face CLI 配置的令牌。默认为 None

运行时参数

  • repo_id: Hugging Face Hub 仓库 ID,数据集将上传到该仓库。

  • split: 将被推送的数据集拆分。

  • private: 要推送的数据集是否应为私有。

  • token: 将用于在 Hub 中进行身份验证的令牌。

输入 & 输出列

graph TD
    subgraph Dataset
        subgraph Columns
            ICOL0[dynamic]
        end
    end

    subgraph PushToHub
        StepInput[Input Columns: dynamic]
    end

    ICOL0 --> StepInput

输入

  • dynamic (all): 来自输入的所有列将用于创建数据集。

示例

将数据集批次推送到 Hugging Face Hub 仓库

from distilabel.steps import PushToHub

push = PushToHub(repo_id="path_to/repo")
push.load()

result = next(
    push.process(
        [
            {
                "instruction": "instruction ",
                "generation": "generation"
            }
        ],
    )
)
# >>> result
# [{'instruction': 'instruction ', 'generation': 'generation'}]