This is the Linux app named Synthetic Data Kit whose latest release can be downloaded as synthetic-data-kitsourcecode.tar.gz. It can be run online in the free hosting provider OnWorks for workstations.
Download en gebruik online gratis deze app genaamd Synthetic Data Kit met OnWorks.
Volg deze instructies om deze app uit te voeren:
- 1. Download deze applicatie op uw pc.
- 2. Voer in onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX in met de gebruikersnaam die u wilt.
- 3. Upload deze applicatie in zo'n bestandsbeheerder.
- 4. Start de OnWorks Linux online of Windows online emulator of MACOS online emulator vanaf deze website.
- 5. Ga vanuit het OnWorks Linux-besturingssysteem dat u zojuist hebt gestart naar onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX met de gewenste gebruikersnaam.
- 6. Download de applicatie, installeer hem en voer hem uit.
SCHERMSCHERMEN:
Synthetische datakit
BESCHRIJVING:
Synthetic Data Kit is een CLI-centrische toolkit voor het genereren van hoogwaardige synthetische datasets om Llama-modellen te verfijnen, met de nadruk op het produceren van redeneerlijnen en QA-paren die aansluiten op moderne formaten voor instructie-afstemming. Het bevat een eigenzinnige, modulaire workflow die het verwerken van heterogene bronnen (documenten, transcripties), het aansporen van modellen om gelabelde voorbeelden te maken en het exporteren naar fine-tuning schema's met minimale lijmcode omvat. Het ontwerpdoel van de kit is om de bottleneck van 'datavoorbereiding' te verkleinen door datasetcreatie om te zetten in een herhaalbare pijplijn in plaats van ad-hoc notebooks. Het ondersteunt het genereren van varianten van rationales/gedachtenketens, configureerbare bemonstering en guardrails, zodat de output voldoet aan formaatbeperkingen en kwaliteitscontroles. Voorbeelden en handleidingen laten zien hoe u taakspecifiek gedrag, zoals toolgebruik of stapsgewijze redeneringen, kunt aanpakken en vervolgens direct kunt opslaan in trainingsklare bestanden.
Kenmerken
- Vierfase CLI-pijplijn van opname tot export
- Generatie van QA-paren en redeneersporen
- Configureerbare prompts, bemonstering en filters
- Trainingsklare uitvoerformaten voor fijnafstemming
- Kwaliteitscontroles en schemavalidatie
- Voorbeelden gericht op taakspecifiek redeneren
Programmeertaal
Python
Categorieën
Deze applicatie kan ook worden gedownload van https://sourceforge.net/projects/synthetic-data-kit.mirror/. Deze is gehost in OnWorks, zodat deze eenvoudig online kan worden uitgevoerd via een van onze gratis besturingssystemen.