NeMo Curator Linux 版下载

这是一款名为 NeMo Curator 的 Linux 应用,其最新版本可下载为 NVIDIANeMoCurator0.9.0sourcecode.zip。它可在免费的工作站托管服务提供商 OnWorks 上在线运行。

 
 

使用 OnWorks 免费下载并在线运行这款名为 NeMo Curator 的应用程序。

请按照以下说明运行此应用程序:

- 1. 在您的 PC 中下载此应用程序。

- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。

- 3. 在这样的文件管理器中上传这个应用程序。

- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。

- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。

- 6. 下载应用程序,安装并运行。

截图:


NeMo 策展人


描述:

NeMo Curator 是一个 Python 库,专为快速且可扩展的数据集准备和管理而设计,适用于大型语言模型 (LLM) 用例,例如基础模型预训练、领域自适应预训练 (DAPT)、监督微调 (SFT) 和参数高效微调 (PEFT)。它利用 Dask 和 RAPIDS 的 GPU 来显著加速数据管理,从而节省大量时间。该库提供可定制的模块化接口,简化了管道扩展,并通过准备高质量的 token 来加速模型收敛。NeMo Curator 的核心是 DocumentDataset,它是主要的数据集类。它充当 Dask DataFrame 的简单包装器。该 Python 库提供了易于使用的方法来扩展管理管道的功能,同时消除了可扩展性的顾虑。



功能

  • 数据下载和文本提取
  • 使用 fastText 和 pycld2 进行语言识别和分离
  • 通过 ftfy 重新格式化和清理文本以修复 unicode 解码错误
  • 文档级重复数据删除
  • 基于多语言启发式的过滤
  • 分布式数据分类


程式语言

Python


分类

大型语言模型(法学硕士)

此应用程序也可从 https://sourceforge.net/projects/nemo-curator.mirror/ 获取。它已托管在 OnWorks 中,以便通过我们的免费操作系统之一以最便捷的方式在线运行。



最新的 Linux 和 Windows 在线程序


下载适用于 Windows 和 Linux 的软件和程序的类别