Загрузка NeMo Curator для Linux

Это приложение для Linux под названием NeMo Curator, последнюю версию которого можно скачать как NVIDIANeMoCurator0.9.0sourcecode.zip. Его можно запустить онлайн на бесплатном хостинг-провайдере OnWorks для рабочих станций.

 
 

Бесплатно скачайте и запустите онлайн приложение NeMo Curator с OnWorks.

Следуйте этим инструкциям, чтобы запустить это приложение:

- 1. Загрузил это приложение на свой компьютер.

- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.

- 3. Загрузите это приложение в такой файловый менеджер.

- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.

- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.

- 6. Скачайте приложение, установите его и запустите.

СКРИНШОТЫ:


Куратор НеМо


ОПИСАНИЕ:

NeMo Curator — это библиотека Python, специально разработанная для быстрой и масштабируемой подготовки и курирования наборов данных для сценариев использования больших языковых моделей (LLM), таких как предварительное обучение базовой модели, адаптивное к домену предварительное обучение (DAPT), контролируемая тонкая настройка (SFT) и параметрически-эффективная тонкая настройка (PEFT). Она значительно ускоряет курирование данных благодаря использованию графических процессоров с Dask и RAPIDS, что приводит к значительной экономии времени. Библиотека предоставляет настраиваемый модульный интерфейс, упрощающий расширение конвейера и ускоряющий сходимость моделей за счет подготовки высококачественных токенов. В основе NeMo Curator лежит DocumentDataset, который служит основным классом набора данных. Он действует как простая оболочка для Dask DataFrame. Библиотека Python предлагает простые в использовании методы для расширения функциональности вашего конвейера курирования, устраняя проблемы масштабируемости.



Особенности

  • Загрузка данных и извлечение текста
  • Идентификация и разделение языков с помощью fastText и pycld2
  • Переформатирование и очистка текста для исправления ошибок декодирования Unicode с помощью ftfy
  • Дедупликация на уровне документа
  • Многоязычная эвристическая фильтрация
  • Распределенная классификация данных


Язык программирования

Питон


Категории

Большие языковые модели (LLM)

Это приложение также можно скачать по адресу https://sourceforge.net/projects/nemo-curator.mirror/. Оно размещено на платформе OnWorks для максимально удобного запуска онлайн через одну из наших бесплатных операционных систем.



Новейшие онлайн-программы для Linux и Windows


Категории для загрузки Программное обеспечение и программы для Windows и Linux