这是 sge_ckpt 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
sge_ckpt.1 - Sun Grid Engine 检查点机制和检查点支持
商品描述
Sun Grid Engine 支持两个级别的检查点:用户级别和操作级别
系统提供透明级别。 用户级检查点是指应用程序,它
通过在特定时间或算法步骤编写重启文件来执行自己的检查点
并在重新启动时正确处理这些重新启动文件。
透明检查点必须由操作系统提供,通常是
集成在操作系统内核中。 集成内核的示例
检查点工具是来自 Softway 的用于 SGI IRIX 平台的 Hibernator 包。
需要使用 Sun Grid Engine 系统向 Sun Grid Engine 系统标识检查点作业 -ckpt
的选项 qsub1() 命令。 这个标志的参数是指一个所谓的
检查点环境,它定义了检查点方法的属性
使用(见 检查点5() 详情)。 检查点环境由
配置文件() 选项 -确认, -dckpt, -mckpt 和 -sckpt。 该 qsub1() 选项 -c 可用于
覆盖 ,尤其是 引用检查点环境的属性。
如果队列是 CHECKPOINTING 类型,则作业需要具有 checkpointing 属性
标记(见 -ckpt 选项 qsub1()) 被允许在这样的队列中运行。 作为
与常规批处理作业的行为相反,检查点作业在
批处理或交互式作业暂停甚至不受影响的情况。
这些条件是:
· 通过显式暂停队列或作业 qmod1() 由集群管理或
队列所有者如果 x 场合说明符(见 qsub1() -c 和 检查点5()) 被分配
到工作。
· 负载平均值超过了为
相应的队列(见 队列配置5()。)
· 关闭 Sun Grid Engine 执行守护进程 sge_execd8() 负责
检查点工作。
中止后,作业将迁移到其他队列,除非它们被提交到一个
特定队列由显式用户请求。 作业迁移导致动态负载
平衡。 请注意: 检查点作业的中止将释放所有资源(内存、交换
空间)该作业当时占用的空间。 这与暂停的情况相反
常规作业,仍然覆盖交换空间。
限制
当作业迁移到另一台机器上的队列时,目前没有文件传输
自动到那台机器。 这意味着在整个过程中使用的所有文件
包括重启文件、可执行文件和暂存文件在内的整个作业必须可见或
显式传输(例如在作业脚本的开头)。
对于透明地使用磁盘空间也有一些实际限制
检查点作业。 透明检查点应用程序的检查点通常是
由操作系统存储在检查点文件或目录中。 文件或目录
包含进程的所有文本、数据和堆栈空间,以及一些额外的
控制信息。 这意味着使用非常大的虚拟地址空间的作业将
生成非常大的检查点文件。 还有作业所在的工作站
实际上执行可能只有很少的可用磁盘空间。 因此并不总是可以
将透明检查点作业传输到机器,即使该机器空闲。
由于大型虚拟内存作业必须等待一台既空闲又具有
足够的可用磁盘空间,此类作业可能需要很长的周转时间。
使用 onworks.net 服务在线使用 sge_ckpt