Questo è il comando sge_ckpt che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
sge_ckpt.1 - il meccanismo di checkpoint di Sun Grid Engine e il supporto per il checkpoint
DESCRIZIONE
Sun Grid Engine supporta due livelli di checkpoint: il livello utente e il livello operativo
sistema fornito livello trasparente. Il checkpoint a livello utente si riferisce alle applicazioni, che
eseguire il proprio checkpoint scrivendo file di riavvio in determinati momenti o passaggi algoritmici
e elaborando correttamente questi file di riavvio al riavvio.
Il checkpoint trasparente deve essere fornito dal sistema operativo e di solito è
integrato nel kernel del sistema operativo. Un esempio per un kernel integrato
la funzione di checkpoint è il pacchetto Hibernator di Softway per piattaforme SGI IRIX.
I lavori di checkpoint devono essere identificati nel sistema Sun Grid Engine utilizzando il -ckpt
opzione del qsub1() comando. L'argomento di questo flag si riferisce a un cosiddetto
ambiente di checkpoint, che definisce gli attributi del metodo di checkpoint da essere
usato (vedi punto di controllo5() per dettagli). Gli ambienti di checkpoint sono impostati dal
qconf1() opzioni -accettare, -dct, -mcpt ed -scpt. qsub1() opzione -c può essere utilizzato per
sovrascrivi il quando attributo per l'ambiente di checkpoint di riferimento.
Se una coda è del tipo CHECKPOINTING, i lavori devono avere l'attributo checkpointing
contrassegnato (vedi -ckpt opzione a qsub1()) per poter essere eseguito in tale coda. Come
contrariamente al comportamento dei normali lavori batch, i lavori di checkpoint vengono interrotti sotto
condizioni, per le quali i lavori batch o interattivi vengono sospesi o addirittura rimangono inalterati.
Queste condizioni sono:
· Sospensione esplicita della coda o del lavoro tramite qmod1() dall'amministrazione del cluster o a
proprietario della coda se il x identificatore di occasione (vedi qsub1() -c ed punto di controllo5()) è stato assegnato
al lavoro.
· Un valore medio del carico che supera la soglia di sospensione configurata per il
code corrispondenti (vedi coda_conf5().)
· Arresto del demone di esecuzione di Sun Grid Engine sge_execd8() essere responsabile del
lavoro di controllo.
Dopo l'aborto, i lavori migreranno in altre code a meno che non siano stati inviati a uno
coda specifica da una richiesta esplicita dell'utente. La migrazione dei posti di lavoro porta a un carico dinamico
bilanciamento. Nota: L'aborto dei lavori con checkpoint libererà tutte le risorse (memoria, scambio
spazio) che il lavoro occupa in quel momento. Questo si oppone alla situazione dei sospesi
lavori regolari, che coprono ancora lo spazio di swap.
RESTRIZIONI
Quando un lavoro migra in una coda su un'altra macchina al momento non vengono trasferiti file
automaticamente a quella macchina. Ciò significa che tutti i file utilizzati nel
l'intero lavoro, inclusi file di riavvio, eseguibili e file di lavoro, deve essere visibile o
trasferiti in modo esplicito (ad es. all'inizio dello script del lavoro).
Ci sono anche alcune limitazioni pratiche riguardanti l'uso dello spazio su disco in modo trasparente
posti di lavoro di controllo. I punti di controllo di un'applicazione trasparente sono di solito
memorizzato in un file o in una directory di checkpoint dal sistema operativo. Il file o la directory
contiene tutto il testo, i dati e lo spazio dello stack per il processo, insieme ad alcuni elementi aggiuntivi
informazioni di controllo. Ciò significa che i lavori che utilizzano uno spazio di indirizzi virtuali molto ampio lo faranno
generare file di checkpoint molto grandi. Anche le postazioni su cui si svolgeranno i lavori
effettivamente eseguito potrebbe avere poco spazio libero su disco. Quindi non è sempre possibile
trasferire un lavoro di checkpoint trasparente a una macchina, anche se quella macchina è inattiva.
Poiché i lavori di memoria virtuale di grandi dimensioni devono attendere una macchina che sia inattiva e che abbia un
quantità sufficiente di spazio libero su disco, tali lavori possono subire lunghi tempi di risposta.
Usa sge_ckpt online utilizzando i servizi onworks.net