FlashMLA 下载(适用于 Windows)

这是名为 FlashMLA 的 Windows 应用程序,其最新版本可以下载为 FlashMLAsourcecode.tar.gz。它可以在免费的工作站托管服务提供商 OnWorks 上在线运行。

 
 

免费下载并在线运行名为 FlashMLA with OnWorks 的应用程序。

请按照以下说明运行此应用程序:

- 1. 在您的 PC 中下载此应用程序。

- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。

- 3. 在这样的文件管理器中上传这个应用程序。

- 4. 从本网站启动任何 OS OnWorks 在线模拟器,但更好的 Windows 在线模拟器。

- 5. 从您刚刚启动的 OnWorks Windows 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。

- 6. 下载应用程序并安装。

- 7. 从您的 Linux 发行版软件存储库下载 Wine。 安装后,您可以双击该应用程序以使用 Wine 运行它们。 您还可以尝试 PlayOnLinux,这是 Wine 上的一个花哨界面,可帮助您安装流行的 Windows 程序和游戏。

Wine 是一种在 Linux 上运行 Windows 软件的方法,但不需要 Windows。 Wine 是一个开源的 Windows 兼容层,可以直接在任何 Linux 桌面上运行 Windows 程序。 本质上,Wine 试图从头开始重新实现足够多的 Windows,以便它可以运行所有这些 Windows 应用程序,而实际上不需要 Windows。

截图:


FlashMLA


描述:

FlashMLA 是一个高性能解码内核库,专为多头潜在注意力 (MLA) 工作负载而设计,面向 NVIDIA Hopper GPU 架构。它提供针对 MLA 解码的优化内核,包括对可变长度序列的支持,有助于降低延迟并提高使用该注意力机制的模型推理系统的吞吐量。该库支持 BF16 和 FP16 数据类型,并包含一个分页键值缓存实现,块大小为 64,以便在解码过程中高效管理内存。在计算密集型设置下,它在 H800 SXM5 硬件上可达到高达约 660 TFLOPS 的计算能力,而在内存密集型配置下,它可以将内存吞吐量提升至约 3000 GB/s。团队会定期更新该库以提升性能;例如,2025 年的更新声称在保持 API 兼容性的同时,计算密集型工作负载的性能提升了 5% 至 15%。



功能

  • 针对 MLA(多头潜在注意力)模块优化的解码内核
  • 支持 BF16 和 FP16 精度以平衡速度与数值稳定性
  • 块大小为 64 的分页 KV 缓存可有效处理不同的序列长度
  • 针对 NVIDIA Hopper 架构的 GPU 原生实现
  • 通过 flash_mla_with_kvcache 等函数进行 Python / PyTorch 集成
  • 随着时间的推移定期改进性能(例如,新版本的性能提升 5-15%)


程式语言

C + +中


分类

人工智能模型

此应用程序也可从 https://sourceforge.net/projects/flashmla.mirror/ 获取。它已托管在 OnWorks 中,以便通过我们的免费操作系统之一以最便捷的方式在线运行。



最新的 Linux 和 Windows 在线程序


下载适用于 Windows 和 Linux 的软件和程序的类别