操作指南¶
欢迎来到操作指南部分!在这里,您将找到一系列指南,帮助您开始使用 Distilabel。我们将指南分为两个类别:基础和高级。基础指南将帮助您开始了解 Distilabel 的核心概念,而高级指南将帮助您探索更高级的功能。
基础¶
-
为您的 Pipeline 定义 Steps
Steps 是您 pipeline 的构建块。它们可以用于生成数据、评估模型、操作数据或任何其他通用任务。
-
定义依赖于 LLM 的 Tasks
Tasks 是一种特定类型的 step,它依赖于语言模型 (LLM) 来生成数据。
-
将 LLM 定义为本地或远程模型
LLM 是您任务的核心。它们用于与本地模型或远程 API 集成。
-
在 Pipeline 中执行步骤和任务
Pipeline 是您将所有 steps 和 tasks 放在一起以创建工作流程的地方。
高级¶
-
使用 Distiset 数据集对象
Distiset 是一个基于 datasets 库的数据集对象,可以用于存储和操作数据。
-
将数据导出到 Argilla
Argilla 是一个平台,可以用于存储、搜索数据集并对其应用反馈。 Argilla
-
使用文件系统在步骤之间传递批次数据
文件系统可以用于在 pipeline 中的步骤之间传递数据。
-
使用 CLI 探索和重新运行现有的 Pipelines
CLI 可以用于通过命令行探索和重新运行现有的 pipelines。
-
缓存和恢复 pipeline 执行
缓存可以用于恢复 pipeline 执行,以避免丢失数据和宝贵的 LLM 调用。
-
结构化数据生成
结构化数据生成可以用于生成具有特定结构的数据,例如 JSON、函数调用等。
-
服务一个 LLM 以在多个任务之间共享它
通过 TGI 或 vLLM 服务 LLM,并使用诸如
InferenceEndpointsLLM
或OpenAILLM
之类的客户端进行连接,以避免浪费资源。 -
对您的 pipelines 和 steps 施加要求
向 pipeline 中的 steps 添加要求,以确保它们已安装并避免错误。