Это приложение для Linux под названием NeMo Curator, последнюю версию которого можно скачать как NVIDIANeMoCurator0.9.0sourcecode.zip. Его можно запустить онлайн на бесплатном хостинг-провайдере OnWorks для рабочих станций.
Бесплатно скачайте и запустите онлайн приложение NeMo Curator с OnWorks.
Следуйте этим инструкциям, чтобы запустить это приложение:
- 1. Загрузил это приложение на свой компьютер.
- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 3. Загрузите это приложение в такой файловый менеджер.
- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.
- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 6. Скачайте приложение, установите его и запустите.
СКРИНШОТЫ:
Куратор НеМо
ОПИСАНИЕ:
NeMo Curator — это библиотека Python, специально разработанная для быстрой и масштабируемой подготовки и курирования наборов данных для сценариев использования больших языковых моделей (LLM), таких как предварительное обучение базовой модели, адаптивное к домену предварительное обучение (DAPT), контролируемая тонкая настройка (SFT) и параметрически-эффективная тонкая настройка (PEFT). Она значительно ускоряет курирование данных благодаря использованию графических процессоров с Dask и RAPIDS, что приводит к значительной экономии времени. Библиотека предоставляет настраиваемый модульный интерфейс, упрощающий расширение конвейера и ускоряющий сходимость моделей за счет подготовки высококачественных токенов. В основе NeMo Curator лежит DocumentDataset, который служит основным классом набора данных. Он действует как простая оболочка для Dask DataFrame. Библиотека Python предлагает простые в использовании методы для расширения функциональности вашего конвейера курирования, устраняя проблемы масштабируемости.
Особенности
- Загрузка данных и извлечение текста
- Идентификация и разделение языков с помощью fastText и pycld2
- Переформатирование и очистка текста для исправления ошибок декодирования Unicode с помощью ftfy
- Дедупликация на уровне документа
- Многоязычная эвристическая фильтрация
- Распределенная классификация данных
Язык программирования
Питон
Категории
Это приложение также можно скачать по адресу https://sourceforge.net/projects/nemo-curator.mirror/. Оно размещено на платформе OnWorks для максимально удобного запуска онлайн через одну из наших бесплатных операционных систем.