这是名为“合成数据套件”的 Windows 应用,其最新版本可以下载为 synthesized-data-kitsourcecode.tar.gz。它可以在免费的工作站托管服务提供商 OnWorks 上在线运行。
免费在线下载并运行这个名为 Synthetic Data Kit with OnWorks 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从本网站启动任何 OS OnWorks 在线模拟器,但更好的 Windows 在线模拟器。
- 5. 从您刚刚启动的 OnWorks Windows 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序并安装。
- 7. 从您的 Linux 发行版软件存储库下载 Wine。 安装后,您可以双击该应用程序以使用 Wine 运行它们。 您还可以尝试 PlayOnLinux,这是 Wine 上的一个花哨界面,可帮助您安装流行的 Windows 程序和游戏。
Wine 是一种在 Linux 上运行 Windows 软件的方法,但不需要 Windows。 Wine 是一个开源的 Windows 兼容层,可以直接在任何 Linux 桌面上运行 Windows 程序。 本质上,Wine 试图从头开始重新实现足够多的 Windows,以便它可以运行所有这些 Windows 应用程序,而实际上不需要 Windows。
截图:
合成数据集
描述:
Synthetic Data Kit 是一款以 CLI 为中心的工具包,用于生成高质量的合成数据集,以微调 Llama 模型,重点在于生成符合现代指令调优格式的推理轨迹和问答对。它提供了一个规范的模块化工作流程,涵盖了异构数据源(文档、文本)的提取、模型创建带标签的示例,以及以最少的胶水代码导出到微调模式。该工具包的设计目标是通过将数据集创建转变为可重复的流水线而非临时笔记本,从而缩短“数据准备”瓶颈。它支持生成基本原理/思路链变体、可配置采样和护栏,使输出符合格式约束和质量检查。示例和指南展示了如何针对特定任务的行为(例如工具使用或逐步推理),然后直接保存到可用于训练的文件中。
功能
- 从摄取到导出的四阶段 CLI 管道
- 生成问答对和推理痕迹
- 可配置的提示、采样和过滤器
- 用于微调的训练就绪输出格式
- 质量检查和模式验证
- 针对特定任务推理的示例
程式语言
Python
分类
此应用程序也可从 https://sourceforge.net/projects/synthetic-data-kit.mirror/ 获取。它已托管在 OnWorks 中,以便通过我们的免费操作系统之一以最便捷的方式在线运行。