教程¶

端到端教程¶

Deepseek Prover

了解一种为从非正式数学问题生成的定理生成数学证明的方法。

示例
DEITA

了解关于提示、响应调整以实现复杂性和质量以及 LLMs 作为自动数据选择的评判者。

论文
Instruction Backtranslation

了解关于使用相应指令自动标记人类书写的文本。

论文
Prometheus 2

了解关于使用开源模型作为直接评估和成对排名的评判者。

论文
UltraFeedback

了解关于一个大规模、细粒度、多样化的偏好数据集，用于训练强大的奖励和批评模型。

论文
APIGen

了解如何为函数调用应用程序创建可验证的高质量数据集。

论文
CLAIR

了解来自 AI 修订的对比学习 (CLAIR)，这是一种数据创建方法，可产生更多对比鲜明的偏好对。

论文
Math Shepherd

了解关于 Math-Shepherd，这是一个框架，用于生成数据集以训练过程奖励模型 (PRMs)，该模型为数学问题解决方案的每个步骤分配奖励分数。

论文

使用 distilabel 进行基准测试

了解关于使用 disitlabel 重现 Arena Hard 基准测试。

示例
使用 outlines 进行结构化生成

了解关于使用 distilabel 中的 outlines 生成遵循 pydantic.BaseModel 的 RPG 角色。

示例
使用 instructor 进行结构化生成

了解关于使用 distilabel 中的 instructor 回答定义为 pydantic.BaseModel 对象的知识图谱的指令。

示例
使用 FinePersonas 创建社交网络

了解如何利用 FinePersonas 创建合成社交网络并微调 Multi-LoRA 的适配器。

示例
为考试创建问题和答案

了解如何使用原始维基百科页面和结构化生成为考试生成问题和答案。

示例
使用 distilabel 生成图像

使用 distilabel 生成合成图像。

示例
在 distilabel 中使用图像生成文本

使用 distilabel 询问关于图像的问题。

示例