GoGPT Best VPN GoSearch

OnWorks 网站图标

Linux 版 Evals 下载

免费下载 Evals Linux 应用程序,在 Ubuntu 在线、Fedora 在线或 Debian 在线运行

这是名为 Evals 的 Linux 应用程序,其最新版本可以下载为 evals3.0.1sourcecode.zip。它可以在免费的工作站托管服务提供商 OnWorks 上在线运行。

免费下载并在线运行这个名为 Evals with OnWorks 的应用程序。

请按照以下说明运行此应用程序:

- 1. 在您的 PC 中下载此应用程序。

- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。

- 3. 在这样的文件管理器中上传这个应用程序。

- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。

- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。

- 6. 下载应用程序,安装并运行。

SCREENSHOTS

Ad


评价


商品描述

openai/evals 存储库是一个用于评估使用 LLM 构建的大型语言模型和系统的框架和注册表。它旨在让您以结构化的方式定义“评估”(eval,评估任务),并针对不同的模型或代理运行它们,并能够对结果进行评分、比较和分析。该框架支持模板化的 YAML 评估定义、基于求解器的评估、自定义指标以及多步骤评估的组合。它包含实用程序和 API,用于插入补全函数、管理提示、包装重试或错误处理以及注册新的评估类型。它还维护着一个不断增长的标准基准或“评估”注册表,用户可以重复使用(例如,衡量推理、事实准确性或思路链能力的任务)。该框架采用模块化设计,因此您可以扩展或编写新的评估,与您自己的模型 API 集成,并捕获每次运行的丰富元数据(提示、响应、指标)。



功能

  • 通过 YAML 加上辅助类和模板脚手架定义 eval
  • 支持“求解器”式评估(解决任务的模型)作为评估的子类
  • 用于插入完成函数、提示模板和重试逻辑的 API 和包装器
  • 基准测试任务的注册表和跨模型共享评估的重用
  • 用于添加新评估类型的模块化、可扩展架构
  • 用于分析的元数据跟踪(提示、指标、响应、诊断)


程式语言

Python


分类

大型语言模型(法学硕士)

此应用程序也可从 https://sourceforge.net/projects/evals.mirror/ 获取。它已托管在 OnWorks 中,以便通过我们的免费操作系统之一以最便捷的方式在线运行。


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。