Dit is de Linux-app genaamd verl, waarvan de nieuwste versie kan worden gedownload als v0.6.1sourcecode.tar.gz. Deze kan online worden uitgevoerd via de gratis hostingprovider OnWorks voor werkstations.
Download en gebruik online deze app met de naam verl gratis met OnWorks.
Volg deze instructies om deze app uit te voeren:
- 1. Download deze applicatie op uw pc.
- 2. Voer in onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX in met de gebruikersnaam die u wilt.
- 3. Upload deze applicatie in zo'n bestandsbeheerder.
- 4. Start de OnWorks Linux online of Windows online emulator of MACOS online emulator vanaf deze website.
- 5. Ga vanuit het OnWorks Linux-besturingssysteem dat u zojuist hebt gestart naar onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX met de gewenste gebruikersnaam.
- 6. Download de applicatie, installeer hem en voer hem uit.
SCHERMSCHERMEN:
links
BESCHRIJVING:
VERL is een toolkit gericht op reinforcement learning, ontworpen om moderne AI-systemen te trainen en af te stemmen, van taalmodellen tot besluitvormers. Het combineert supervised finetuning, voorkeursmodellering en online RL in één coherente trainingsstack, zodat teams met minimale lijmcode van ruwe data naar afgestemde beleidsregels kunnen overstappen. De bibliotheek richt zich op schaalbaarheid en efficiëntie en biedt gedistribueerde trainingslussen, gemengde precisie en replay-/buffering-hulpprogramma's die accelerators bezig houden. Het wordt geleverd met referentie-implementaties van populaire afstemmingsalgoritmen en duidelijke voorbeelden die het eenvoudig maken om basislijnen te reproduceren voordat ze worden aangepast. Datapijplijnen behandelen menselijke feedback, gesimuleerde omgevingen en synthetische voorkeuren als onderling uitwisselbare bronnen, wat helpt bij snelle experimenten. VERL is bedoeld voor zowel onderzoek als productie: logging, checkpointing en evaluatiesuites zijn ingebouwd, zodat u leerdynamiek en regressies in de loop van de tijd kunt volgen.
Kenmerken
- Geünificeerde pijplijn voor SFT, voorkeursmodellering en online RL
- Gedistribueerde training met gemengde precisie en efficiënte replaybuffers
- Referentie-implementaties van populaire uitlijnings-/RL-algoritmen
- Pluggable databronnen voor menselijke, gesimuleerde en synthetische feedback
- Uitgebreide logging, controlepunten en evaluatiedashboards
- Uitbreidbare componenten voor aangepaste beloningen, beleid en omgevingen
Programmeertaal
Python
Categorieën
Deze applicatie kan ook worden gedownload van https://sourceforge.net/projects/verl.mirror/. Deze is gehost in OnWorks, zodat deze eenvoudig online kan worden uitgevoerd via een van onze gratis besturingssystemen.