这是名为 DeepEval 的 Linux 应用,其最新版本可以下载为 NewInterfaces,ReduceETLCode_50_!sourcecode.tar.gz。它可在免费的工作站托管服务提供商 OnWorks 上在线运行。
使用 OnWorks 免费下载并在线运行这个名为 DeepEval 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
SCREENSHOTS
Ad
DeepEval
商品描述
DeepEval 是一个简单易用的开源 LLM 评估框架,用于评估和测试大型语言模型系统。它与 Pytest 类似,但专门用于对 LLM 输出进行单元测试。DeepEval 结合了最新研究成果,基于 G-Eval、幻觉、答案相关性、RAGAS 等指标来评估 LLM 输出,它使用在您的机器上本地运行的 LLM 和其他各种 NLP 模型进行评估。无论您的应用程序是通过 RAG 还是微调、LangChain 或 LlamaIndex 实现的,DeepEval 都能满足您的需求。借助它,您可以轻松确定最佳超参数,从而改进您的 RAG 流程,防止快速漂移,甚至可以自信地从 OpenAI 过渡到托管您自己的 Llama2。
功能
- 多种现成的 LLM 评估指标(均附有说明)由您选择的任何 LLM 提供支持
- 红队利用几行代码检测你的 LLM 申请中的 40 多个安全漏洞
- 可用文档
- 可用示例
- 使用不到 20 行 Python 代码并行批量评估整个数据集。您可以通过类似 Pytest 的 CLI 方式执行此操作,也可以使用我们的 evaluate() 函数
- 通过继承 DeepEval 的基础指标类,创建您自己的自定义指标,并自动与 DeepEval 的生态系统集成
程式语言
Python
分类
此应用程序也可从 https://sourceforge.net/projects/deepeval.mirror/ 获取。它已托管在 OnWorks 中,以便通过我们的免费操作系统之一以最便捷的方式在线运行。
 
 














