跳到内容

教程

  • 端到端教程 提供详细的逐步解释以及用于端到端工作流程的代码。
  • 论文实现 提供合成数据领域中基础论文的重现。
  • 示例 不提供解释,但仅显示不同任务的代码。

端到端教程

  • 生成偏好数据集


    了解关于 ORPO 和 DPO 的合成数据生成。

    教程

  • 清理现有的偏好数据集


    了解如何提供 AI 反馈来清理现有数据集。

    教程

  • 检索和重排序模型


    了解关于用于微调自定义检索和重排序模型的合成数据生成。

    教程

  • 生成文本分类数据


    了解关于用于文本分类的合成数据生成如何帮助解决数据不平衡或稀缺问题。

    教程

论文实现

  • Deepseek Prover


    了解一种为从非正式数学问题生成的定理生成数学证明的方法。

    示例

  • DEITA


    了解关于提示、响应调整以实现复杂性和质量以及 LLMs 作为自动数据选择的评判者。

    论文

  • Instruction Backtranslation


    了解关于使用相应指令自动标记人类书写的文本。

    论文

  • Prometheus 2


    了解关于使用开源模型作为直接评估和成对排名的评判者。

    论文

  • UltraFeedback


    了解关于一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励和批评模型。

    论文

  • APIGen


    了解如何为函数调用应用程序创建可验证的高质量数据集。

    论文

  • CLAIR


    了解来自 AI 修订的对比学习 (CLAIR),这是一种数据创建方法,可产生更多对比鲜明的偏好对。

    论文

  • Math Shepherd


    了解关于 Math-Shepherd,这是一个框架,用于生成数据集以训练过程奖励模型 (PRMs),该模型为数学问题解决方案的每个步骤分配奖励分数。

    论文

示例

  • 使用 distilabel 进行基准测试


    了解关于使用 disitlabel 重现 Arena Hard 基准测试。

    示例

  • 使用 outlines 进行结构化生成


    了解关于使用 distilabel 中的 outlines 生成遵循 pydantic.BaseModel 的 RPG 角色。

    示例

  • 使用 instructor 进行结构化生成


    了解关于使用 distilabel 中的 instructor 回答定义为 pydantic.BaseModel 对象的知识图谱的指令。

    示例

  • 使用 FinePersonas 创建社交网络


    了解如何利用 FinePersonas 创建合成社交网络并微调 Multi-LoRA 的适配器。

    示例

  • 为考试创建问题和答案


    了解如何使用原始维基百科页面和结构化生成为考试生成问题和答案。

    示例

  • 使用 distilabel 生成图像


    使用 distilabel 生成合成图像。

    示例

  • 在 distilabel 中使用图像生成文本


    使用 distilabel 询问关于图像的问题。

    示例