This is the Windows app named Synthetic Data Kit whose latest release can be downloaded as synthetic-data-kitsourcecode.tar.gz. It can be run online in the free hosting provider OnWorks for workstations.
Téléchargez et exécutez en ligne gratuitement cette application nommée Synthetic Data Kit avec OnWorks.
Suivez ces instructions pour exécuter cette application :
- 1. Téléchargé cette application sur votre PC.
- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.
- 3. Téléchargez cette application dans ce gestionnaire de fichiers.
- 4. Démarrez n'importe quel émulateur en ligne OS OnWorks à partir de ce site Web, mais un meilleur émulateur en ligne Windows.
- 5. Depuis le système d'exploitation OnWorks Windows que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.
- 6. Téléchargez l'application et installez-la.
- 7. Téléchargez Wine depuis les dépôts de logiciels de vos distributions Linux. Une fois installé, vous pouvez ensuite double-cliquer sur l'application pour les exécuter avec Wine. Vous pouvez également essayer PlayOnLinux, une interface sophistiquée sur Wine qui vous aidera à installer des programmes et des jeux Windows populaires.
Wine est un moyen d'exécuter un logiciel Windows sur Linux, mais sans Windows requis. Wine est une couche de compatibilité Windows open source qui peut exécuter des programmes Windows directement sur n'importe quel bureau Linux. Essentiellement, Wine essaie de ré-implémenter suffisamment de Windows à partir de zéro pour qu'il puisse exécuter toutes ces applications Windows sans avoir réellement besoin de Windows.
CAPTURES D'ÉCRAN:
Kit de données synthétiques
DESCRIPTION:
Synthetic Data Kit est une boîte à outils centrée sur l'interface de ligne de commande (CLI) permettant de générer des jeux de données synthétiques de haute qualité pour affiner les modèles Llama. L'accent est mis sur la production de traces de raisonnement et de paires d'assurance qualité conformes aux formats modernes d'optimisation des instructions. Il propose un workflow modulaire et avisé qui couvre l'ingestion de sources hétérogènes (documents, transcriptions), l'incitation des modèles à créer des exemples étiquetés et l'exportation vers des schémas d'optimisation avec un minimum de code de liaison. L'objectif de ce kit est de réduire le goulot d'étranglement lié à la préparation des données en transformant la création de jeux de données en un pipeline reproductible plutôt que de simples blocs-notes ad hoc. Il prend en charge la génération de variantes de logiques et de chaînes de pensée, l'échantillonnage configurable et les garde-fous afin que les résultats respectent les contraintes de format et les contrôles qualité. Des exemples et des guides montrent comment cibler des comportements spécifiques à une tâche, comme l'utilisation d'outils ou le raisonnement étape par étape, puis les enregistrer directement dans des fichiers prêts à l'apprentissage.
Comment ça marche
- Pipeline CLI en quatre étapes, de l'ingestion à l'exportation
- Génération de paires QA et de traces de raisonnement
- Invites, échantillonnage et filtres configurables
- Formats de sortie prêts à l'emploi pour un réglage précis
- Contrôles de qualité et validation de schéma
- Exemples ciblant le raisonnement spécifique à une tâche
Langage de programmation
Python
Catégories
Cette application peut également être téléchargée depuis https://sourceforge.net/projects/synthetic-data-kit.mirror/. Elle est hébergée sur OnWorks afin de pouvoir être exécutée en ligne plus facilement depuis l'un de nos systèmes d'exploitation gratuits.