This is the Linux app named Synthetic Data Kit whose latest release can be downloaded as synthetic-data-kitsourcecode.tar.gz. It can be run online in the free hosting provider OnWorks for workstations.
免费在线下载并运行这个名为 Synthetic Data Kit with OnWorks 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
截图:
合成数据集
描述:
Synthetic Data Kit 是一款以 CLI 为中心的工具包,用于生成高质量的合成数据集,以微调 Llama 模型,重点在于生成符合现代指令调优格式的推理轨迹和问答对。它提供了一个规范的模块化工作流程,涵盖了异构数据源(文档、文本)的提取、模型创建带标签的示例,以及以最少的胶水代码导出到微调模式。该工具包的设计目标是通过将数据集创建转变为可重复的流水线而非临时笔记本,从而缩短“数据准备”瓶颈。它支持生成基本原理/思路链变体、可配置采样和护栏,使输出符合格式约束和质量检查。示例和指南展示了如何针对特定任务的行为(例如工具使用或逐步推理),然后直接保存到可用于训练的文件中。
功能
- 从摄取到导出的四阶段 CLI 管道
- 生成问答对和推理痕迹
- 可配置的提示、采样和过滤器
- 用于微调的训练就绪输出格式
- 质量检查和模式验证
- 针对特定任务推理的示例
程式语言
Python
分类
此应用程序也可从 https://sourceforge.net/projects/synthetic-data-kit.mirror/ 获取。它已托管在 OnWorks 中,以便通过我们的免费操作系统之一以最便捷的方式在线运行。