操作指南¶

欢迎来到操作指南部分！在这里，您将找到一系列指南，帮助您开始使用 Distilabel。我们将指南分为两个类别：基础和高级。基础指南将帮助您开始了解 Distilabel 的核心概念，而高级指南将帮助您探索更高级的功能。

基础¶

为您的 Pipeline 定义 Steps

Steps 是您 pipeline 的构建块。它们可以用于生成数据、评估模型、操作数据或任何其他通用任务。

定义 Steps
定义依赖于 LLM 的 Tasks

Tasks 是一种特定类型的 step，它依赖于语言模型 (LLM) 来生成数据。

定义 Tasks
将 LLM 定义为本地或远程模型

LLM 是您任务的核心。它们用于与本地模型或远程 API 集成。

定义 LLM
在 Pipeline 中执行步骤和任务

Pipeline 是您将所有 steps 和 tasks 放在一起以创建工作流程的地方。

执行 Pipeline

使用 Distiset 数据集对象

Distiset 是一个基于 datasets 库的数据集对象，可以用于存储和操作数据。

Distiset
将数据导出到 Argilla

Argilla 是一个平台，可以用于存储、搜索数据集并对其应用反馈。 Argilla
使用文件系统在步骤之间传递批次数据

文件系统可以用于在 pipeline 中的步骤之间传递数据。

文件系统
使用 CLI 探索和重新运行现有的 Pipelines

CLI 可以用于通过命令行探索和重新运行现有的 pipelines。

CLI
缓存和恢复 pipeline 执行

缓存可以用于恢复 pipeline 执行，以避免丢失数据和宝贵的 LLM 调用。

缓存
结构化数据生成

结构化数据生成可以用于生成具有特定结构的数据，例如 JSON、函数调用等。

结构化生成
服务一个 LLM 以在多个任务之间共享它

通过 TGI 或 vLLM 服务 LLM，并使用诸如 InferenceEndpointsLLM 或 OpenAILLM 之类的客户端进行连接，以避免浪费资源。

跨任务共享 LLM
对您的 pipelines 和 steps 施加要求

向 pipeline 中的 steps 添加要求，以确保它们已安装并避免错误。

Pipeline 要求