Name: Linux için LM İnsan Tercihleri'ni indirin
Brand: OnWorks
SKU: ee19bd9fa2181e3446e27a05ce8cb724
Availability: OnlineOnly
Rating: 4.34 (2100 reviews)

Bu, en son sürümü lm-human-preferencessourcecode.tar.gz olarak indirilebilen LM Human Preferences adlı Linux uygulamasıdır. İş istasyonları için ücretsiz barındırma sağlayıcısı OnWorks'te çevrimiçi olarak çalıştırılabilir.

LM Human Preferences with OnWorks adlı bu uygulamayı ücretsiz olarak indirin ve çevrimiçi çalıştırın.

Bu uygulamayı çalıştırmak için şu talimatları izleyin:

- 1. Bu uygulamayı PC'nize indirdiniz.

- 2. Dosya yöneticimize https://www.onworks.net/myfiles.php?username=XXXXX istediğiniz kullanıcı adını girin.

- 3. Bu uygulamayı böyle bir dosya yöneticisine yükleyin.

- 4. Bu web sitesinden OnWorks Linux çevrimiçi veya Windows çevrimiçi öykünücüsünü veya MACOS çevrimiçi öykünücüsünü başlatın.

- 5. Yeni başladığınız OnWorks Linux işletim sisteminden, istediğiniz kullanıcı adıyla https://www.onworks.net/myfiles.php?username=XXXXX dosya yöneticimize gidin.

- 6. Uygulamayı indirin, kurun ve çalıştırın.

Uygulamayı İndir Ubuntu'da Çalıştır Fedora'da çalıştırın Windows Sim'de Çalıştır MACOS Sim'de çalıştırın

EKRAN

LM İnsan Tercihleri

AÇIKLAMA

lm-human-preferences, İnsan Tercihlerinden Dil Modellerini İnce Ayarlama makalesindeki yöntemi uygulayan resmi OpenAI kod tabanıdır. Amacı, insan karşılaştırmalarından bir ödül modeli eğiterek ve ardından bu ödül sinyalini kullanarak bir politika modelinin ince ayarını yaparak dil modellerinin insan yargılarıyla nasıl uyumlu hale getirileceğini göstermektir. Depo, ödül modelini eğitmek (çıktı çiftlerini sıralamayı veya puanlamayı öğrenmek) ve bu ödül modeli tarafından yönlendirilen takviyeli öğrenme (veya ilgili teknikler) ile bir politikayı (bir dil modeli) ince ayarlamak için betikler içerir. Kod "olduğu gibi" sağlanır ve bağımlılıklar veya veri kümesi geçişleri nedeniyle artık kullanıma hazır olmayabileceği açıkça belirtilir. En küçük GPT-2 (124 milyon parametre) üzerinde belirli bir ortamda (TensorFlow 1.x, belirli CUDA / cuDNN kombinasyonları) test edilmiştir. Deneyleri başlatmak, politikalardan örnekleme yapmak ve basit deney orkestrasyonu için yardımcı programlar içerir.

Özellikler

İnsan tercihi karşılaştırmalarından bir ödül modelinin eğitilmesi
Ödül modelinin rehberliğinde bir politikanın (dil modeli) ince ayarı
Eğitilen politikadan çıktılar üretmek için örnekleme/çıkarım yardımcı programları
Aşamaları (ödül + politika) birleştirmek için deney düzenleme (launch.py)
İnsan karşılaştırmalarından skaler ödül sinyallerine etiket işleme ve eşleme
Referans ortamı olarak küçük GPT-2 (124M) modelinin desteklenmesi

Programlama dili

Python

Kategoriler

Eğitim

Bu uygulama, https://sourceforge.net/projects/lm-human-preferences.mirror/ adresinden de indirilebilir. Ücretsiz İşletim Sistemlerimizden birinden çevrimiçi olarak en kolay şekilde çalıştırılabilmesi için OnWorks'te barındırılmıştır.