Dies ist der Befehl gmt-music-bmr-calc-covgp, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
gmt music bmr calc-covg – Verwendet calcRoiCovg.c, um die abgedeckten Basen pro Gen für jedes zu zählen
ein tumornormales BAM-Paar gegeben.
VERSION
Dieses Dokument beschreibt GMT Music BMR Calc-CoVG Version 0.04 (2016-01-01 um 23:10:19)
ZUSAMMENFASSUNG
GMT-Musik bmr calc-covg --gene-covg-dir=? --roi-file=? --reference-sequence=? --bam-list=?
--output-dir=? [--cmd-list-file=?] [--cmd-prefix=?] [--normal-min- Depth=?]
[--tumor-min-Tiefe=?] [--min-mapq=?]
Allgemeine Verwendung:
... Musik bmr calc-covg \
--bam-list Eingabeverzeichnis/bam_list \
--output-dir ausgabe_dir/ \
--reference-sequence input_dir/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv
Um eine Liste von Befehlen zu erstellen, die die Verarbeitung jedes Tumor-Normal-Paares in
parallel mit einem LSF-Job-Scheduler:
... Musik bmr calc-covg \
--bam-list Eingabeverzeichnis/bam_list \
--output-dir ausgabe_dir/ \
--reference-sequence input_dir/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv \
--cmd_list_file parallelisierbare_befehle \
--cmd_prefix bsub
Im obigen Fall können die in die Ausgabedatei "parallelizable_commands" gedruckten Befehle
parallel laufen. Führen Sie nach Abschluss dieses Skripts erneut aus, wie direkt unten gedruckt
(--cmd_list_file und --cmd_prefix wurden entfernt) zum Zusammenführen der parallelisierten
Berechnungen:
... Musik bmr calc-covg \
--bam-list Eingabeverzeichnis/bam_list \
--output-dir ausgabe_dir/ \
--reference-sequence input_dir/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv
ERFORDERLICH ARGUMENTE
gen-covg-dir Text
Verzeichnis, in dem sich die Genabdeckungsdateien pro Probe befinden
roi-Datei Text
Tabulatorgetrennte Liste von ROIs [chr start stop gene_name] (Siehe Beschreibung)
Referenzsequenz Text
Pfad zur Referenzsequenz im FASTA-Format
bam-liste Text
Tabulatorgetrennte Liste von BAM-Dateien [sample_name normal_bam tumor_bam] (Siehe Beschreibung)
Ausgabeverzeichnis Text
Verzeichnis, in das Ausgabedateien und Unterverzeichnisse geschrieben werden
OPTIONAL ARGUMENTE
cmd-list-Datei Text
Eine Datei zum Schreiben von calcRoiCovg-Befehlen (siehe Beschreibung)
cmd-Präfix Text
Ein Befehl, der einen Job an Ihren Cluster sendet (siehe Beschreibung)
Normal-Min-Tiefe ganze Zahl
Die minimale Lesetiefe, um eine normale BAM-Basis als abgedeckt zu betrachten
Tumor-Min-Tiefe ganze Zahl
Die minimale Lesetiefe, um eine Tumor-BAM-Basis als abgedeckt zu betrachten
min-mapq ganze Zahl
Die minimale Abbildungsqualität von Lesevorgängen, die in Bezug auf die Lesetiefe zu berücksichtigen ist, zählt
BESCHREIBUNG
Dieses Skript zählt Basen mit ausreichender Abdeckung in den ROIs jedes Gens im gegebenen
Paare von tumornormalen BAM-Dateien und kategorisiert sie in - AT, CG (non-CpG) und CpG
zählt. Es addiert auch diese Basenzählungen über alle ROIs jedes Gens für jede Probe,
bedeckte Basen, die innerhalb überlappender ROIs liegen, werden jedoch nicht mehr als einmal angerechnet
diese Summe zählt.
Standardmäßig führt dieses Skript ein C-basiertes Tool namens calcRoiCovg für jede Probe nacheinander aus
eine andere, die ungefähr 30 Minuten pro Probe benötigt, um pro ROI abgedeckte Basenzählungen zu generieren. Wenn die
Ergebnisse von calcRoiCovg für eine Probe existieren bereits im Ausgabe-Unterverzeichnis roi_covgs,
Neuberechnung wird übersprungen. Dadurch können Sie Ihre eigenen calcRoiCovg-Jobs parallel ausführen oder
auf mehreren Maschinen (Lesen Sie weiter).
Beschleunigen Sie die Arbeit, indem Sie calcRoiCovg-Jobs parallel ausführen: Wenn ein Compute-Cluster oder mehrere
Maschinen verfügbar sind, führen Sie dieses Skript zweimal wie folgt aus:
· Definieren Sie cmd-list-file und cmd-prefix, um eine Datei mit Befehlen zu generieren, die
an einen Cluster übermittelt oder manuell ausgeführt werden. Diese Jobs schreiben Basiszählungen pro ROI in a
Unterverzeichnis roi_covgs.
· Nachdem alle parallelisierten calcRoiCovg-Jobs abgeschlossen sind, führen Sie dieses Skript erneut aus, um
addieren Sie sie und generieren Sie die endgültigen Basenzählungen pro Gen in einem Unterverzeichnis gene_covgs.
Denken Sie daran, die Argumente cmd-list-file und cmd-prefix zu entfernen.
Erstellen einer Liste von Befehlen.
ARGUMENTE
--roi-Datei
Die Regionen von Interesse (ROIs) jedes Gens sind typischerweise Regionen, auf die
Sequenzierung oder sind fusionierte Exon-Loci (aus mehreren Transkripten) von Genen mit 2-bp
Flanken (Spleißstellen). ROIs desselben Chromosoms müssen neben aufgeführt werden
einander in dieser Datei. Dadurch kann der zugrunde liegende C-basierte Code viel mehr ausgeführt werden
effizient und vermeiden Sie das erneute Zählen von Basen in überlappenden ROIs (für insgesamt abgedeckte
Grundwerte). Bei Basenzählungen pro Gen wird jedes Mal eine überlappende Base gezählt
es erscheint in einem ROI des gleichen Gens. Um dies zu vermeiden, stellen Sie sicher, dass Sie zusammenführen
überlappende ROIs desselben Gens. MergeBed von BEDtools kann helfen, wenn es pro Gen verwendet wird.
--Referenzsequenz
Die Referenzsequenz im FASTA-Format. Wenn kein Referenzsequenzindex gefunden wird
neben dieser Datei (eine .fai-Datei) wird sie erstellt.
--bam-liste
Stellen Sie jeweils eine Datei mit Probennamen und normalen/Tumor-BAM-Speicherorten bereit. Verwenden
das tabulatorgetrennte Format [sample_name normal_bam tumor_bam] pro Zeile. Zusätzlich
Spalten wie klinische Daten sind erlaubt, werden aber ignoriert. Der sample_name muss gleich sein
wie die in der MAF-Datei verwendeten Tumorprobennamen (16. Spalte, mit der Überschrift
Tumor_Probe_Barcode).
--output-dir
Geben Sie ein Ausgabeverzeichnis an, in das Folgendes erstellt/geschrieben wird: roi_covgs:
Unterverzeichnis mit pro-ROI abgedeckten Basiszählungen für jede Probe. gen_covgs:
Unterverzeichnis, das die pro Gen abgedeckten Basenzählungen für jede Probe enthält. total_covgs:
Datei, die die gesamten nicht überlappenden Coverages pro Stichprobe enthält.
--cmd-list-file
Geben Sie eine Datei an, in die eine Liste von calcRoiCovg-Jobs geschrieben wird. Das können sein
parallel geplant und schreibt pro ROI abgedeckte Basiszählungen in die Ausgabe
Unterverzeichnis roi_covgs. Wenn cmd-list-file nicht angegeben wird, wird dieses Skript ausgeführt
calcRoiCovg pro Probe nacheinander, dauert ~30 Minuten pro Probe, aber es wird übersprungen
Samples, deren Ausgabe sich bereits in roi_covgs befindet.
--cmd-Präfix
Geben Sie einen Jobübergabebefehl an, der jedem Befehl in cmd-list- vorangestellt wird.
Datei. Dies erleichtert die Batch-Übermittlung. Führen Sie einfach die Datei cmd-list-file als Shell aus
Skript zum Senden von Jobs. cmd-prefix ist "bsub", wenn Ihr Cluster den LSF-Job verwendet
Scheduler oder "qsub" in Torque. Fügen Sie nach Bedarf Argumente hinzu. Beispiel: "bsub -M 4GB"
legt ein weiches Speicherlimit von 4 GB fest.
Verwenden Sie gmt-music-bmr-calc-covgp online über die Dienste von onworks.net