To aplikacja dla systemu Linux o nazwie Synthetic Data Kit, której najnowszą wersję można pobrać jako synthesis-data-kitsourcecode.tar.gz. Można ją uruchomić online w darmowym hostingu OnWorks dla stacji roboczych.
Pobierz i uruchom bezpłatnie aplikację Synthetic Data Kit z OnWorks.
Postępuj zgodnie z tymi instrukcjami, aby uruchomić tę aplikację:
- 1. Pobrałem tę aplikację na swój komputer.
- 2. Wpisz w naszym menedżerze plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 3. Prześlij tę aplikację w takim menedżerze plików.
- 4. Uruchom emulator online OnWorks Linux lub Windows online lub emulator online MACOS z tej witryny.
- 5. W systemie operacyjnym OnWorks Linux, który właśnie uruchomiłeś, przejdź do naszego menedżera plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 6. Pobierz aplikację, zainstaluj ją i uruchom.
ZDJĘCIA EKRANU:
Zestaw danych syntetycznych
OPIS:
Synthetic Data Kit to zestaw narzędzi oparty na interfejsie wiersza poleceń (CLI) do generowania wysokiej jakości syntetycznych zbiorów danych w celu dostrajania modeli Llama, ze szczególnym uwzględnieniem tworzenia śladów wnioskowania i par QA zgodnych z nowoczesnymi formatami dostrajania instrukcji. Zawiera on modułowy, oparty na opiniach proces, który obejmuje przetwarzanie heterogenicznych źródeł (dokumentów, transkryptów), zachęcanie modeli do tworzenia przykładów z etykietami oraz eksportowanie do schematów dostrajania z minimalną ilością kodu scalającego. Celem projektu zestawu jest skrócenie wąskiego gardła „przygotowania danych” poprzez przekształcenie tworzenia zbiorów danych w powtarzalny proces, a nie w doraźne notatniki. Obsługuje generowanie racjonalizacji/wariantów łańcucha myślowego, konfigurowalne próbkowanie oraz zabezpieczenia, aby wyniki spełniały ograniczenia formatu i kontroli jakości. Przykłady i przewodniki pokazują, jak ukierunkować zachowania specyficzne dla danego zadania, takie jak korzystanie z narzędzi czy rozumowanie krok po kroku, a następnie zapisać je bezpośrednio do plików gotowych do szkolenia.
Funkcjonalności
- Czteroetapowy kanał CLI od pobierania do eksportu
- Generowanie par QA i śladów wnioskowania
- Konfigurowalne monity, próbkowanie i filtry
- Formaty wyjściowe gotowe do szkolenia, umożliwiające precyzyjne dostrajanie
- Kontrole jakości i walidacja schematu
- Przykłady ukierunkowane na rozumowanie specyficzne dla zadania
Język programowania
Python
Kategorie
Tę aplikację można również pobrać ze strony https://sourceforge.net/projects/synthetic-data-kit.mirror/. Została ona umieszczona w OnWorks, aby można ją było uruchomić online w najłatwiejszy sposób z jednego z naszych darmowych systemów operacyjnych.