To aplikacja na Linuksa o nazwie NeMo Curator, której najnowszą wersję można pobrać jako NVIDIANeMoCurator0.9.0sourcecode.zip. Można ją uruchomić online na bezpłatnym hostingu OnWorks dla stacji roboczych.
Pobierz i uruchom bezpłatnie aplikację NeMo Curator z OnWorks.
Postępuj zgodnie z tymi instrukcjami, aby uruchomić tę aplikację:
- 1. Pobrałem tę aplikację na swój komputer.
- 2. Wpisz w naszym menedżerze plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 3. Prześlij tę aplikację w takim menedżerze plików.
- 4. Uruchom emulator online OnWorks Linux lub Windows online lub emulator online MACOS z tej witryny.
- 5. W systemie operacyjnym OnWorks Linux, który właśnie uruchomiłeś, przejdź do naszego menedżera plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 6. Pobierz aplikację, zainstaluj ją i uruchom.
ZRZUTY EKRANU
Ad
Kurator NeMo
OPIS
NeMo Curator to biblioteka Pythona zaprojektowana specjalnie do szybkiego i skalowalnego przygotowywania i kuratorowania zbiorów danych dla przypadków użycia modeli dużego języka (LLM), takich jak wstępne trenowanie modelu podstawowego, wstępne trenowanie z adaptacją domenową (DAPT), dostrajanie nadzorowane (SFT) i dostrajanie z optymalizacją parametrów (PEFT). Znacznie przyspiesza kuratorowanie danych poprzez wykorzystanie procesorów GPU z Dask i RAPIDS, co przekłada się na znaczną oszczędność czasu. Biblioteka oferuje konfigurowalny i modułowy interfejs, upraszczając rozbudowę potoku i przyspieszając konwergencję modeli poprzez przygotowanie wysokiej jakości tokenów. Sercem NeMo Curator jest DocumentDataset, który pełni funkcję głównej klasy zbioru danych. Działa on jako prosta powłoka dla obiektu Dask DataFrame. Biblioteka Pythona oferuje łatwe w użyciu metody rozszerzania funkcjonalności potoku kuratorowania, eliminując jednocześnie problemy ze skalowalnością.
Funkcjonalności
- Pobieranie danych i ekstrakcja tekstu
- Identyfikacja i separacja języków za pomocą fastText i pycld2
- Ponowne formatowanie i czyszczenie tekstu w celu naprawy błędów dekodowania Unicode za pomocą ftfy
- Deduplikacja na poziomie dokumentów
- Wielojęzyczne filtrowanie oparte na heurystyce
- Klasyfikacja danych rozproszonych
Język programowania
Python
Kategorie
Tę aplikację można również pobrać ze strony https://sourceforge.net/projects/nemo-curator.mirror/. Została ona umieszczona w OnWorks, aby można ją było uruchomić online w najłatwiejszy sposób z jednego z naszych darmowych systemów operacyjnych.