GoGPT Best VPN GoSearch

OnWorks 网站图标

LM Human Preferences 下载 Linux 版本

免费下载 LM Human Preferences Linux 应用程序,在 Ubuntu 在线、Fedora 在线或 Debian 在线运行

这是名为 LM Human Preferences 的 Linux 应用,其最新版本可以下载为 lm-human-preferencessourcecode.tar.gz。它可以在免费的工作站托管服务提供商 OnWorks 上在线运行。

免费下载并在线运行名为 LM Human Preferences with OnWorks 的应用程序。

请按照以下说明运行此应用程序:

- 1. 在您的 PC 中下载此应用程序。

- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。

- 3. 在这样的文件管理器中上传这个应用程序。

- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。

- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。

- 6. 下载应用程序,安装并运行。

SCREENSHOTS

Ad


LM 人类偏好


商品描述

lm-human-preferences 是 OpenAI 官方代码库,实现了论文《基于人类偏好微调语言模型》中的方法。其目的是展示如何通过基于人类比较训练奖励模型,然后使用该奖励信号微调策略模型,从而使语言模型与人类判断保持一致。该代码库包含用于训练奖励模型(学习对输出对进行排序或评分)的脚本,以及用于在该奖励模型指导下使用强化学习(或相关技术)微调策略(语言模型)的脚本。代码按“原样”提供,并明确指出由于依赖项或数据集迁移,它可能不再开箱即用。它在特定环境(TensorFlow 1.x,特定 CUDA/cuDNN 组合)下,在最小的 GPT-2(124M 个参数)上进行了测试。它包含用于启动实验、从策略中采样以及简单实验编排的实用程序。



功能

  • 通过人类偏好比较来训练奖励模型
  • 在奖励模型的指导下微调策略(语言模型)
  • 采样/推理实用程序,用于从训练策略中生成输出
  • 实验编排(launch.py​​)以组合各个阶段(奖励+策略)
  • 标签处理以及从人工比较到标量奖励信号的映射
  • 支持小型 GPT-2(124M)模型作为参考环境


程式语言

Python


分类

教育背景

此应用程序也可从 https://sourceforge.net/projects/lm-human-preferences.mirror/ 获取。它已托管在 OnWorks 中,以便通过我们的免费操作系统之一以最便捷的方式在线运行。


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。