यह "फॉलोइंग इंस्ट्रक्शंस विद फीडबैक" नाम का एक लिनक्स ऐप है, जिसका नवीनतम संस्करण following-instructions-human-feedbacksourcecode.tar.gz के रूप में डाउनलोड किया जा सकता है। इसे वर्कस्टेशन के लिए मुफ़्त होस्टिंग प्रदाता OnWorks पर ऑनलाइन चलाया जा सकता है।
OnWorks के साथ Following Instructions with Feedback नामक इस ऐप को मुफ्त में डाउनलोड करें और ऑनलाइन चलाएँ।
इस ऐप को चलाने के लिए इन निर्देशों का पालन करें:
- 1. इस एप्लिकेशन को अपने पीसी में डाउनलोड करें।
- 2. हमारे फ़ाइल प्रबंधक में https://www.onworks.net/myfiles.php?username=XXXXX उस उपयोगकर्ता नाम के साथ दर्ज करें जो आप चाहते हैं।
- 3. इस एप्लिकेशन को ऐसे फाइल मैनेजर में अपलोड करें।
- 4. इस वेबसाइट से ऑनवर्क्स लिनक्स ऑनलाइन या विंडोज ऑनलाइन एमुलेटर या मैकोज़ ऑनलाइन एमुलेटर शुरू करें।
- 5. ऑनवर्क्स लिनक्स ओएस से आपने अभी शुरुआत की है, हमारे फाइल मैनेजर को https://www.onworks.net/myfiles.php?username=XXXXX उस यूजरनेम के साथ जाएं जो आप चाहते हैं।
- 6. एप्लिकेशन डाउनलोड करें, इसे इंस्टॉल करें और इसे चलाएं।
स्क्रीनशॉट:
फीडबैक के साथ निर्देशों का पालन करना
विवरण:
निम्नलिखित-निर्देश-मानव-प्रतिक्रिया रिपॉजिटरी में वह कोड और अनुपूरक सामग्रियाँ शामिल हैं जो OpenAI के भाषा मॉडल (InstructGPT मॉडल) के प्रशिक्षण कार्य का आधार हैं जो मानव प्रतिक्रिया के माध्यम से उपयोगकर्ता के निर्देशों का बेहतर पालन करते हैं। यह रिपॉजिटरी मॉडल कार्ड, नमूना स्वचालित मूल्यांकन आउटपुट और प्रक्रिया में प्रयुक्त लेबलिंग दिशानिर्देशों को होस्ट करती है। यह स्पष्ट रूप से "मानव प्रतिक्रिया के साथ निर्देशों का पालन करने के लिए भाषा मॉडल का प्रशिक्षण" पेपर से जुड़ा है, और यह इस बात के लिए एक संदर्भ के रूप में कार्य करता है कि OpenAI कैसे एनोटेशन दिशानिर्देश एकत्र करता है, वरीयता तुलना करता है, और मॉडल व्यवहार का मूल्यांकन करता है। यह रिपॉजिटरी संपूर्ण RLHF पाइपलाइन का पूर्ण कार्यान्वयन नहीं है, बल्कि प्रकाशित शोध का समर्थन करने वाला एक अभिलेखीय केंद्र है—जो मूल्यांकन और मानव लेबलिंग मानकों के बारे में पारदर्शिता प्रदान करता है। इसमें स्वचालित-eval-samples (बेंचमार्क कार्यों पर मॉडल आउटपुट के नमूने) और एक model-card.md जैसी निर्देशिकाएँ शामिल हैं जो InstructGPT मॉडल के इच्छित व्यवहार, सीमाओं और पूर्वाग्रहों का वर्णन करती हैं।
विशेषताएं
- InstructGPT प्रयोगों से मूल्यांकन नमूना आउटपुट का संग्रह
- मॉडल-कार्ड.एमडी मॉडल के उपयोग, सीमाओं और सुरक्षा संबंधी विचारों का वर्णन करता है
- मानव मूल्यांकनकर्ताओं के लिए प्रयुक्त लेबलिंग दिशानिर्देश / एनोटेशन निर्देश
- संरचित “स्वचालित-मूल्यांकन-नमूने” फ़ोल्डर जो आधार रेखा बनाम परिष्कृत आउटपुट दिखाता है
- ओपनएआई द्वारा मॉडल वरीयता रैंकिंग और संरेखण को मापने के तरीके के बारे में पारदर्शिता
- मूल शोध पत्र और दस्तावेज़ीकरण के लिंक और संदर्भ
श्रेणियाँ
यह एक ऐसा एप्लिकेशन है जिसे https://sourceforge.net/projects/following-inst-feedback.mirror/ से भी प्राप्त किया जा सकता है। इसे हमारे किसी भी निःशुल्क ऑपरेटिव सिस्टम से सबसे आसान तरीके से ऑनलाइन चलाने के लिए OnWorks में होस्ट किया गया है।