هذا هو تطبيق لينكس CUTLASS، ويمكن تنزيل أحدث إصدار منه بـ CUTLASS4.1.0sourcecode.tar.gz. ويمكن تشغيله عبر الإنترنت من خلال موفر الاستضافة المجاني OnWorks لمحطات العمل.
قم بتنزيل وتشغيل هذا التطبيق المسمى CUTLASS مع OnWorks عبر الإنترنت مجانًا.
اتبع هذه التعليمات لتشغيل هذا التطبيق:
- 1. قم بتنزيل هذا التطبيق على جهاز الكمبيوتر الخاص بك.
- 2. أدخل في مدير الملفات الخاص بنا https://www.onworks.net/myfiles.php؟username=XXXXX باسم المستخدم الذي تريده.
- 3. تحميل هذا التطبيق في هذا الملف.
- 4. ابدأ تشغيل OnWorks Linux عبر الإنترنت أو محاكي Windows عبر الإنترنت أو محاكي MACOS عبر الإنترنت من هذا الموقع.
- 5. من نظام تشغيل OnWorks Linux الذي بدأته للتو ، انتقل إلى مدير الملفات الخاص بنا https://www.onworks.net/myfiles.php؟username=XXXXX مع اسم المستخدم الذي تريده.
- 6. قم بتنزيل التطبيق وتثبيته وتشغيله.
SCREENSHOTS
Ad
السيف المقوس
الوصف
CUTLASS عبارة عن مجموعة من تجريدات قوالب CUDA C ++ لتنفيذ مضاعفة المصفوفة عالية الأداء (GEMM) والحسابات ذات الصلة على جميع المستويات والمقاييس داخل CUDA. وهو يدمج استراتيجيات التحلل الهرمي وحركة البيانات المشابهة لتلك المستخدمة في تنفيذ cuBLAS و cuDNN. يحلل CUTLASS هذه "الأجزاء المتحركة" إلى مكونات برمجية معيارية قابلة لإعادة الاستخدام يتم استخلاصها بواسطة فئات قوالب C ++. يمكن تخصيص هذه العناصر الأولية على مستوى الخيط ، وعلى مستوى الالتواء ، وعلى مستوى الكتلة ، وعلى مستوى الجهاز عبر أحجام تبليط مخصصة وأنواع بيانات وسياسة خوارزمية أخرى. تبسط المرونة الناتجة استخدامها كوحدات بناء داخل النواة والتطبيقات المخصصة. لدعم مجموعة متنوعة من التطبيقات ، يوفر CUTLASS دعمًا مكثفًا للحسابات المختلطة الدقة ، مما يوفر حركة بيانات متخصصة وعمليات تجريد تتراكم مضاعفة لنقطة عائمة نصف دقيقة (FP16) ، BFloat16 (BF16) ، Tensor Float 32 (TF32) ، إلخ.
شرح المميزات:
- تقوم CUTLASS بتنفيذ التفاف عالي الأداء عبر خوارزمية GEMM الضمنية
- GEMM الضمني هو صياغة عملية الالتفاف باعتبارها GEMM وبالتالي الاستفادة من خط أنابيب CUTLASS المعياري GEMM
- قم ببناء التلافيف عن طريق إعادة استخدام مكونات GEMM المحسّنة على مستوى الالتواء الواسع وما دونه
- نواة التفاف الطبقة الأولى المتخصصة في عدد القنوات الصغيرة وتقليل المحاذاة
- تم تسريع مشغلي BLAS3 بواسطة Tensor Cores
- الأداء الأمثل باستخدام CUDA 11.7
لغة البرمجة
C + +
التصنيفات
هذا تطبيق يمكن جلبه أيضًا من https://sourceforge.net/projects/cutlass.mirror/. تمت استضافته في OnWorks ليتم تشغيله عبر الإنترنت بأسهل طريقة من أحد أنظمتنا التشغيلية المجانية.