genome-music-bmr-calc-covgp - Online sa Cloud

Ito ang command na genome-music-bmr-calc-covgp na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator

PROGRAMA:

NAME


genome music bmr calc-covg - Gumagamit ng calcRoiCovg.c upang mabilang ang mga sakop na base per-gene para sa bawat isa
binigyan ng tumor-normal na pares ng mga BAM.

VERSION


Inilalarawan ng dokumentong ito ang genome music bmr calc-covg version 0.04 (2016-01-01 at 23:10:18)

SINOPSIS


genome music bmr calc-covg --gene-covg-dir=? --roi-file=? --reference-sequence=?
--bam-list=? --output-dir=? [--cmd-list-file=?] [--cmd-prefix=?] [--normal-min-depth=?]
[--tumor-min-depth=?] [--min-mapq=?]

Pangkalahatang paggamit:

... musika bmr calc-covg
--bam-list input_dir/bam_list
--output-dir output_dir/
--reference-sequence input_dir/all_sequences.fa
--roi-file input_dir/all_coding_exons.tsv

Upang lumikha ng isang listahan ng mga command na magbibigay-daan sa pagproseso ng bawat tumor-normal na pares
parallel sa isang LSF job scheduler:

... musika bmr calc-covg
--bam-list input_dir/bam_list
--output-dir output_dir/
--reference-sequence input_dir/all_sequences.fa
--roi-file input_dir/all_coding_exons.tsv
--cmd_list_file parallelizable_commands
--cmd_prefix bsub

Sa kaso sa itaas, ang mga command na naka-print sa output file na "parallelizable_commands" ay maaari
patakbuhin nang magkatulad. Pagkatapos nilang makumpleto, muling patakbuhin ang script na ito gaya ng direktang naka-print sa ibaba
(--cmd_list_file at --cmd_prefix ay inalis) upang pagsamahin ang parallelized
mga kalkulasyon:

... musika bmr calc-covg
--bam-list input_dir/bam_list
--output-dir output_dir/
--reference-sequence input_dir/all_sequences.fa
--roi-file input_dir/all_coding_exons.tsv

KAILANGAN MGA PANGANGATWIRANG


gene-covg-dir teksto
Direktoryo kung saan matatagpuan ang mga per-sample gene coverage file

roi-file teksto
Tab delimited na listahan ng mga ROI [chr start stop gene_name] (Tingnan ang Paglalarawan)

reference-sequence teksto
Path sa reference sequence sa FASTA na format

bam-list teksto
Tab delimited na listahan ng mga BAM file [sample_name normal_bam tumor_bam] (Tingnan ang Paglalarawan)

output-dir teksto
Direktoryo kung saan isusulat ang mga output file at subdirectory

OPSYONAL MGA PANGANGATWIRANG


cmd-list-file teksto
Isang file upang isulat ang mga utos ng calcRoiCovg (Tingnan ang Paglalarawan)

cmd-prefix teksto
Isang command na nagsusumite ng trabaho sa iyong cluster (Tingnan ang Paglalarawan)

normal-min-depth Integer
Ang pinakamababang lalim ng pagbasa upang isaalang-alang ang isang Normal na base ng BAM bilang sakop

tumor-min-depth Integer
Ang pinakamababang lalim ng pagbasa upang isaalang-alang ang isang Tumor BAM base bilang sakop

min-mapq Integer
Ang pinakamababang kalidad ng pagmamapa ng mga babasahin na dapat isaalang-alang patungo sa lalim ng pagbasa ay binibilang

DESCRIPTION


Ang script na ito ay nagbibilang ng mga base na may sapat na saklaw sa mga ROI ng bawat gene sa ibinigay
mga pares ng tumor-normal na BAM file at ikinategorya ang mga ito sa - AT, CG (non-CpG), at CpG
binibilang. Idinaragdag din nito ang mga base-count na ito sa lahat ng ROI ng bawat gene para sa bawat sample,
ngunit ang mga sakop na base na nasa loob ng mga overlapping na ROI ay hindi binibilang nang higit sa isang beses patungo
ang kabuuang bilang na ito.

Bilang default, ang script na ito ay nagpapatakbo ng C-based na tool na pinangalanang calcRoiCovg para sa bawat sample pagkatapos nito
isa pa, kumukuha ng ~30 min bawat sample para makabuo ng bawat-ROI covered base counts. Kung ang
ang mga resulta ng calcRoiCovg para sa isang sample ay umiiral na sa output subdirectory na roi_covgs,
nilaktawan ang muling pagkalkula. Binibigyang-daan ka nitong patakbuhin ang sarili mong mga trabaho sa calcRoiCovg nang magkatulad o
sa maraming makina (Ipagpatuloy ang pagbabasa).

Pabilisin ang mga bagay sa pamamagitan ng pagpapatakbo ng mga trabahong calcRoiCovg nang magkatulad: Kung isang compute cluster o maramihan
magagamit ang mga makina, patakbuhin ang script na ito nang dalawang beses gaya ng sumusunod:

· Tukuyin ang cmd-list-file at cmd-prefix para makabuo ng file na may mga command na maaaring
isinumite sa isang cluster o manual na tumakbo. Ang mga trabahong ito ay magsusulat ng per-ROI base counts sa isang
subdirectory roi_covgs.

· Pagkatapos makumpleto ang lahat ng parallelized na mga trabaho sa calcRoiCovg, patakbuhin muli ang script na ito sa
idagdag ang mga ito at buuin ang panghuling per-gene base na bilang sa isang subdirectory gene_covgs.
Tandaang tanggalin ang cmd-list-file at cmd-prefix na mga argumento o ikaw ay muling-
paglikha ng isang listahan ng mga utos.

MGA PANGANGATWIRANG


--roi-file
Ang mga rehiyon ng interes (ROI) ng bawat gene ay karaniwang mga rehiyon na naka-target para sa
sequencing o pinagsamang exon loci (mula sa maraming transcript) ng mga gene na may 2-bp
flanks (splice junctions). Ang mga ROI mula sa parehong chromosome ay dapat na nakalista sa tabi ng
bawat isa sa file na ito. Pinapayagan nito ang pinagbabatayan na C-based na code na tumakbo nang higit pa
mahusay at iwasan ang muling pagbibilang ng mga base na nakikita sa mga magkakapatong na ROI (para sa pangkalahatang saklaw
base na bilang). Para sa mga bilang ng bawat gene base, bibilangin ang isang overlapping na base sa bawat pagkakataon
lumilitaw ito sa isang ROI ng parehong gene. Upang maiwasan ito, siguraduhing magsama-sama
magkakapatong na ROI ng parehong gene. Maaaring makatulong ang mergeBed ng BEDtools kung gagamitin sa bawat gene.
--reference-sequence
Ang reference sequence sa FASTA na format. Kung ang isang reference sequence index ay hindi natagpuan
sa tabi ng file na ito (isang .fai file), ito ay gagawin.
--bam-listahan
Magbigay ng file na naglalaman ng mga sample na pangalan at normal/tumor BAM na lokasyon para sa bawat isa. Gamitin
ang tab-delimited na format [sample_name normal_bam tumor_bam] bawat linya. Dagdag
pinapayagan ang mga column tulad ng klinikal na data, ngunit hindi pinansin. Dapat pareho ang sample_name
bilang mga pangalan ng sample ng tumor na ginamit sa MAF file (ika-16 na column, kasama ang header
Tumor_Sample_Barcode).
--output-dir
Tumukoy ng direktoryo ng output kung saan gagawin/isusulat ang sumusunod: roi_covgs:
Subdirectory na naglalaman ng per-ROI na sakop na mga base count para sa bawat sample. gene_covgs:
Subdirectory na naglalaman ng per-gene covered base counts para sa bawat sample. total_covgs:
Ang file na naglalaman ng pangkalahatang hindi magkakapatong na mga saklaw sa bawat sample.
--cmd-list-file
Tukuyin ang isang file kung saan susulatan ang isang listahan ng mga trabaho sa calcRoiCovg. Ang mga ito ay maaaring
naka-iskedyul nang magkatulad, at magsusulat ng per-ROI covered base-counts sa output
subdirectory roi_covgs. Kung ang cmd-list-file ay naiwang hindi tinukoy, tatakbo ang script na ito
calcRoiCovg bawat sample ng isa-isa, tumatagal ng ~30 mins bawat sample, ngunit lumalaktaw ito
mga sample na ang output ay nasa roi_covgs na.
--cmd-prefix
Tukuyin ang isang utos sa pagsusumite ng trabaho na ilalagay sa prefix sa bawat utos sa cmd-list-
file. Ginagawa nitong mas madali ang pagsusumite ng batch. Patakbuhin lang ang cmd-list-file file bilang isang shell
script para magsumite ng mga trabaho. Ang cmd-prefix ay "bsub" kung ang iyong cluster ay gumagamit ng LSF na trabaho
scheduler, o "qsub" sa Torque. Magdagdag ng mga argumento kung kinakailangan. Halimbawa, "bsub -M 4GB"
nagtatakda ng soft memory limit na 4GB.

Gumamit ng genome-music-bmr-calc-covgp online gamit ang mga serbisyo ng onworks.net



Pinakabagong Linux at Windows online na mga programa