Bu, en son sürümü lm-human-preferencessourcecode.tar.gz olarak indirilebilen LM Human Preferences adlı Linux uygulamasıdır. İş istasyonları için ücretsiz barındırma sağlayıcısı OnWorks'te çevrimiçi olarak çalıştırılabilir.
LM Human Preferences with OnWorks adlı bu uygulamayı ücretsiz olarak indirin ve çevrimiçi çalıştırın.
Bu uygulamayı çalıştırmak için şu talimatları izleyin:
- 1. Bu uygulamayı PC'nize indirdiniz.
- 2. Dosya yöneticimize https://www.onworks.net/myfiles.php?username=XXXXX istediğiniz kullanıcı adını girin.
- 3. Bu uygulamayı böyle bir dosya yöneticisine yükleyin.
- 4. Bu web sitesinden OnWorks Linux çevrimiçi veya Windows çevrimiçi öykünücüsünü veya MACOS çevrimiçi öykünücüsünü başlatın.
- 5. Yeni başladığınız OnWorks Linux işletim sisteminden, istediğiniz kullanıcı adıyla https://www.onworks.net/myfiles.php?username=XXXXX dosya yöneticimize gidin.
- 6. Uygulamayı indirin, kurun ve çalıştırın.
EKRAN
Ad
LM İnsan Tercihleri
AÇIKLAMA
lm-human-preferences, İnsan Tercihlerinden Dil Modellerini İnce Ayarlama makalesindeki yöntemi uygulayan resmi OpenAI kod tabanıdır. Amacı, insan karşılaştırmalarından bir ödül modeli eğiterek ve ardından bu ödül sinyalini kullanarak bir politika modelinin ince ayarını yaparak dil modellerinin insan yargılarıyla nasıl uyumlu hale getirileceğini göstermektir. Depo, ödül modelini eğitmek (çıktı çiftlerini sıralamayı veya puanlamayı öğrenmek) ve bu ödül modeli tarafından yönlendirilen takviyeli öğrenme (veya ilgili teknikler) ile bir politikayı (bir dil modeli) ince ayarlamak için betikler içerir. Kod "olduğu gibi" sağlanır ve bağımlılıklar veya veri kümesi geçişleri nedeniyle artık kullanıma hazır olmayabileceği açıkça belirtilir. En küçük GPT-2 (124 milyon parametre) üzerinde belirli bir ortamda (TensorFlow 1.x, belirli CUDA / cuDNN kombinasyonları) test edilmiştir. Deneyleri başlatmak, politikalardan örnekleme yapmak ve basit deney orkestrasyonu için yardımcı programlar içerir.
Özellikler
- İnsan tercihi karşılaştırmalarından bir ödül modelinin eğitilmesi
- Ödül modelinin rehberliğinde bir politikanın (dil modeli) ince ayarı
- Eğitilen politikadan çıktılar üretmek için örnekleme/çıkarım yardımcı programları
- Aşamaları (ödül + politika) birleştirmek için deney düzenleme (launch.py)
- İnsan karşılaştırmalarından skaler ödül sinyallerine etiket işleme ve eşleme
- Referans ortamı olarak küçük GPT-2 (124M) modelinin desteklenmesi
Programlama dili
Python
Kategoriler
Bu uygulama, https://sourceforge.net/projects/lm-human-preferences.mirror/ adresinden de indirilebilir. Ücretsiz İşletim Sistemlerimizden birinden çevrimiçi olarak en kolay şekilde çalıştırılabilmesi için OnWorks'te barındırılmıştır.
