跳到内容

操作指南

欢迎来到操作指南部分!在这里,您将找到一系列指南,帮助您开始使用 Distilabel。我们将指南分为两个类别:基础和高级。基础指南将帮助您开始了解 Distilabel 的核心概念,而高级指南将帮助您探索更高级的功能。

基础

  • 为您的 Pipeline 定义 Steps


    Steps 是您 pipeline 的构建块。它们可以用于生成数据、评估模型、操作数据或任何其他通用任务。

    定义 Steps

  • 定义依赖于 LLM 的 Tasks


    Tasks 是一种特定类型的 step,它依赖于语言模型 (LLM) 来生成数据。

    定义 Tasks

  • 将 LLM 定义为本地或远程模型


    LLM 是您任务的核心。它们用于与本地模型或远程 API 集成。

    定义 LLM

  • 在 Pipeline 中执行步骤和任务


    Pipeline 是您将所有 steps 和 tasks 放在一起以创建工作流程的地方。

    执行 Pipeline

高级

  • 使用 Distiset 数据集对象


    Distiset 是一个基于 datasets 库的数据集对象,可以用于存储和操作数据。

    Distiset

  • 将数据导出到 Argilla


    Argilla 是一个平台,可以用于存储、搜索数据集并对其应用反馈。 Argilla

  • 使用文件系统在步骤之间传递批次数据


    文件系统可以用于在 pipeline 中的步骤之间传递数据。

    文件系统

  • 使用 CLI 探索和重新运行现有的 Pipelines


    CLI 可以用于通过命令行探索和重新运行现有的 pipelines。

    CLI

  • 缓存和恢复 pipeline 执行


    缓存可以用于恢复 pipeline 执行,以避免丢失数据和宝贵的 LLM 调用。

    缓存

  • 结构化数据生成


    结构化数据生成可以用于生成具有特定结构的数据,例如 JSON、函数调用等。

    结构化生成

  • 服务一个 LLM 以在多个任务之间共享它


    通过 TGI 或 vLLM 服务 LLM,并使用诸如 InferenceEndpointsLLMOpenAILLM 之类的客户端进行连接,以避免浪费资源。

    跨任务共享 LLM

  • 对您的 pipelines 和 steps 施加要求


    向 pipeline 中的 steps 添加要求,以确保它们已安装并避免错误。

    Pipeline 要求