این یک برنامه لینوکسی به نام Following Instructions with Feedback است که آخرین نسخه آن را میتوانید با نام following-instructions-human-feedbacksourcecode.tar.gz دانلود کنید. این برنامه را میتوان به صورت آنلاین در ارائه دهنده هاست رایگان OnWorks برای ایستگاههای کاری اجرا کرد.
این برنامه با نام Following Instructions with Feedback with OnWorks را به صورت رایگان دانلود و آنلاین اجرا کنید.
برای اجرای این برنامه این دستورالعمل ها را دنبال کنید:
- 1. این برنامه را در رایانه شخصی خود دانلود کنید.
- 2. در فایل منیجر ما https://www.onworks.net/myfiles.php?username=XXXXX نام کاربری مورد نظر خود را وارد کنید.
- 3. این برنامه را در چنین فایل منیجر آپلود کنید.
- 4. OnWorks Linux آنلاین یا شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MACOS را از این وب سایت راه اندازی کنید.
- 5. از سیستم عامل لینوکس OnWorks که به تازگی راه اندازی کرده اید، به مدیر فایل ما https://www.onworks.net/myfiles.php?username=XXXXX با نام کاربری که می خواهید بروید.
- 6. اپلیکیشن را دانلود کرده، نصب و اجرا کنید.
عکس ها
Ad
دنبال کردن دستورالعملها به همراه بازخورد
شرح
مخزن following-instructions-human-feedback شامل کد و مطالب تکمیلی است که زیربنای کار OpenAI در مدلهای زبان آموزشی (مدلهای InstructGPT) است که از طریق بازخورد انسانی، دستورالعملهای کاربر را بهتر دنبال میکنند. این مخزن، کارت مدل، نمونه خروجیهای ارزیابی خودکار و دستورالعملهای برچسبگذاری مورد استفاده در این فرآیند را در خود جای داده است. این مخزن به صراحت به مقاله «مدلهای زبان آموزشی برای پیروی از دستورالعملها با بازخورد انسانی» گره خورده است و به عنوان مرجعی برای نحوه جمعآوری دستورالعملهای حاشیهنویسی، اجرای مقایسههای ترجیحی و ارزیابی رفتارهای مدل توسط OpenAI عمل میکند. این مخزن، پیادهسازی کاملی از کل خط لوله RLHF نیست، بلکه یک مرکز بایگانی است که از تحقیقات منتشر شده پشتیبانی میکند - و شفافیت در مورد استانداردهای ارزیابی و برچسبگذاری انسانی را فراهم میکند. این مخزن شامل دایرکتوریهایی مانند automatic-eval-samples (نمونههایی از خروجیهای مدل در وظایف معیار) و model-card.md است که رفتار، محدودیتها و سوگیریهای مورد نظر مدلهای InstructGPT را شرح میدهد.
امکانات
- بایگانی خروجیهای نمونه ارزیابی از آزمایشهای InstructGPT
- model-card.md که کاربرد مدل، محدودیتها و ملاحظات ایمنی را شرح میدهد
- دستورالعملهای برچسبگذاری / دستورالعملهای حاشیهنویسی مورد استفاده برای ارزیابان انسانی
- پوشه ساختاریافته «automated-eval-samples» که خروجیهای پایه در مقابل خروجیهای تنظیمشده دقیق را نشان میدهد
- شفافیت در مورد نحوه اندازهگیری رتبهبندی و ترازبندی ترجیحات مدل توسط OpenAI
- پیوندها و ارجاعات به مقاله پژوهشی اصلی و مستندات
دسته بندی ها
این برنامهای است که میتوان آن را از https://sourceforge.net/projects/following-inst-feedback.mirror/ نیز دریافت کرد. این برنامه در OnWorks میزبانی شده است تا بتوان آن را به سادهترین روش از یکی از سیستمهای عامل رایگان ما به صورت آنلاین اجرا کرد.
