این برنامه لینوکسی CUTLASS نام دارد که آخرین نسخه آن را میتوانید با نام CUTLASS4.2.0sourcecode.tar.gz دانلود کنید. این برنامه را میتوان به صورت آنلاین در ارائه دهنده خدمات میزبانی وب رایگان OnWorks برای ایستگاههای کاری اجرا کرد.
این برنامه با نام CUTLASS را با OnWorks به صورت آنلاین دانلود و اجرا کنید.
برای اجرای این برنامه این دستورالعمل ها را دنبال کنید:
- 1. این برنامه را در رایانه شخصی خود دانلود کنید.
- 2. در فایل منیجر ما https://www.onworks.net/myfiles.php?username=XXXXX نام کاربری مورد نظر خود را وارد کنید.
- 3. این برنامه را در چنین فایل منیجر آپلود کنید.
- 4. OnWorks Linux آنلاین یا شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MACOS را از این وب سایت راه اندازی کنید.
- 5. از سیستم عامل لینوکس OnWorks که به تازگی راه اندازی کرده اید، به مدیر فایل ما https://www.onworks.net/myfiles.php?username=XXXXX با نام کاربری که می خواهید بروید.
- 6. اپلیکیشن را دانلود کرده، نصب و اجرا کنید.
عکس ها
Ad
مقیاس
شرح
CUTLASS مجموعهای از انتزاعهای قالب CUDA C++ برای اجرای ضرب-ماتریس با کارایی بالا (GEMM) و محاسبات مربوطه در همه سطوح و مقیاسها در CUDA است. این شامل استراتژی هایی برای تجزیه سلسله مراتبی و جابجایی داده ها شبیه به راهبردهایی است که برای پیاده سازی cuBLAS و cuDNN استفاده می شود. CUTLASS این "قطعات متحرک" را به اجزای نرم افزاری قابل استفاده مجدد و ماژولار که توسط کلاس های قالب C++ انتزاع شده اند، تجزیه می کند. این موارد اولیه با پهنای رشته، تار، پهنای بلوک و دستگاه را میتوان از طریق اندازههای کاشیکاری سفارشی، انواع دادهها و سایر خطمشیهای الگوریتمی تخصصی و تنظیم کرد. انعطافپذیری حاصل، استفاده از آنها را بهعنوان بلوکهای سازنده در هستهها و برنامههای کاربردی ساده میکند. برای پشتیبانی از طیف گستردهای از برنامهها، CUTLASS پشتیبانی گستردهای را برای محاسبات با دقت ترکیبی، ارائه انتزاعات تخصصی حرکت داده و ضرب تجمعی برای نقطه شناور نیمه دقیق (FP16)، BFloat16 (BF16)، Tensor Float 32 (TF32) ارائه میکند. و غیره.
امکانات
- CUTLASS Convolution با کارایی بالا را از طریق الگوریتم ضمنی GEMM پیاده سازی می کند
- GEMM ضمنی فرمولبندی یک عملیات کانولوشن بهعنوان GEMM است که در نتیجه از خط لوله GEMM مدولار CUTLASS بهره میبرد.
- کانولوشن ها را با استفاده مجدد از اجزای بسیار بهینه سازی شده GEMM و زیر آن بسازید
- هسته های کانولوشن لایه اول برای تعداد کانال های کوچک و کاهش تراز تخصصی هستند
- اپراتورهای BLAS3 توسط Tensor Cores شتاب گرفته اند
- عملکرد بهینه با استفاده از CUDA 11.7
زبان برنامه نویسی
++C
دسته بندی ها
این برنامه ای است که می تواند از https://sourceforge.net/projects/cutlass.mirror/ نیز دریافت شود. در OnWorks میزبانی شده است تا به آسانی از یکی از سیستم عامل های رایگان ما به صورت آنلاین اجرا شود.