Name: LM Human Preferences 下载 Windows 版
Brand: OnWorks
SKU: 1ce5df6078d12e3478750b3bd811562c
Availability: OnlineOnly
Rating: 4.24 (2083 reviews)

这是名为 LM Human Preferences 的 Windows 应用，其最新版本可以下载为 lm-human-preferencessourcecode.tar.gz。它可以在免费的工作站托管服务提供商 OnWorks 上在线运行。

免费下载并在线运行名为 LM Human Preferences with OnWorks 的应用程序。

请按照以下说明运行此应用程序：

- 1. 在您的 PC 中下载此应用程序。

- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。

- 3. 在这样的文件管理器中上传这个应用程序。

- 4. 从本网站启动任何 OS OnWorks 在线模拟器，但更好的 Windows 在线模拟器。

- 5. 从您刚刚启动的 OnWorks Windows 操作系统，使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。

- 6. 下载应用程序并安装。

- 7. 从您的 Linux 发行版软件存储库下载 Wine。安装后，您可以双击该应用程序以使用 Wine 运行它们。您还可以尝试 PlayOnLinux，这是 Wine 上的一个花哨界面，可帮助您安装流行的 Windows 程序和游戏。

Wine 是一种在 Linux 上运行 Windows 软件的方法，但不需要 Windows。 Wine 是一个开源的 Windows 兼容层，可以直接在任何 Linux 桌面上运行 Windows 程序。本质上，Wine 试图从头开始重新实现足够多的 Windows，以便它可以运行所有这些 Windows 应用程序，而实际上不需要 Windows。

下载应用程序在 Ubuntu 中运行在 Fedora 中运行在 Windows Sim 中运行在 MACOS Sim 中运行

SCREENSHOTS

LM 人类偏好

商品描述

lm-human-preferences 是 OpenAI 官方代码库，实现了论文《基于人类偏好微调语言模型》中的方法。其目的是展示如何通过基于人类比较训练奖励模型，然后使用该奖励信号微调策略模型，从而使语言模型与人类判断保持一致。该代码库包含用于训练奖励模型（学习对输出对进行排序或评分）的脚本，以及用于在该奖励模型指导下使用强化学习（或相关技术）微调策略（语言模型）的脚本。代码按“原样”提供，并明确指出由于依赖项或数据集迁移，它可能不再开箱即用。它在特定环境（TensorFlow 1.x，特定 CUDA/cuDNN 组合）下，在最小的 GPT-2（124M 个参数）上进行了测试。它包含用于启动实验、从策略中采样以及简单实验编排的实用程序。

功能

通过人类偏好比较来训练奖励模型
在奖励模型的指导下微调策略（语言模型）
采样/推理实用程序，用于从训练策略中生成输出
实验编排（launch.py）以组合各个阶段（奖励+策略）
标签处理以及从人工比较到标量奖励信号的映射
支持小型 GPT-2（124M）模型作为参考环境

程式语言

Python

分类

大型语言模型（法学硕士）

此应用程序也可从 https://sourceforge.net/projects/lm-human-preferences.mirror/ 获取。它已托管在 OnWorks 中，以便通过我们的免费操作系统之一以最便捷的方式在线运行。