Il s'agit de la commande genome-music-bmr-calc-covgp qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS.
PROGRAMME:
Nom
genome music bmr calc-covg - Utilise calcRoiCovg.c pour compter les bases couvertes par gène pour chacun
étant donné une paire de BAM normale à la tumeur.
VERSION
Ce document décrit Genome Music BMR calc-covg version 0.04 (2016/01/01 à 23:10:18)
SYNOPSIS
musique du génome bmr calc-covg --gene-covg-dir=? --roi-file=? --reference-sequence=?
--bam-list=? --output-dir=? [--cmd-list-file=?] [--cmd-prefix=?] [--normal-min-profondeur=?]
[--tumeur-min-profondeur=?] [--min-mapq=?]
Utilisation générale :
... musique bmr calc-covg \
--bam-list rép_entrée/liste_bam \
--rép-sortie rép_sortie/ \
--reference-sequence rép_entrée/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv
Pour créer une liste de commandes qui permettront le traitement de chaque paire tumeur-normale dans
parallèlement à un ordonnanceur de tâches LSF :
... musique bmr calc-covg \
--bam-list rép_entrée/liste_bam \
--rép-sortie rép_sortie/ \
--reference-sequence rép_entrée/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv \
--cmd_list_file commandes_parallélisables \
--cmd_prefix bsub
Dans le cas ci-dessus, les commandes imprimées dans le fichier de sortie "parallelizable_commands" peuvent
être exécuté en parallèle. Une fois qu'ils sont terminés, réexécutez ce script comme imprimé directement ci-dessous
(--cmd_list_file et --cmd_prefix ont été supprimés) pour fusionner les fichiers parallélisés
calculs :
... musique bmr calc-covg \
--bam-list rép_entrée/liste_bam \
--rép-sortie rép_sortie/ \
--reference-sequence rép_entrée/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv
EST REQUIS ARGUMENTS
gène-covg-dir Texte
Répertoire où se trouvent les fichiers de couverture génétique par échantillon
fichier roi Texte
Liste délimitée par des tabulations de ROI [chr start stop gene_name] (voir description)
séquence-référence Texte
Chemin d'accès à la séquence de référence au format FASTA
bam-liste Texte
Liste délimitée par des tabulations des fichiers BAM [sample_name normal_bam tumor_bam] (voir description)
rép_sortie Texte
Répertoire où les fichiers de sortie et les sous-répertoires seront écrits
EN OPTION ARGUMENTS
fichier-liste-cmd Texte
Un fichier dans lequel écrire les commandes calcRoiCovg (Voir Description)
cmd-préfixe Texte
Une commande qui soumet une tâche à votre cluster (Voir Description)
normale-min-profondeur Entier
La profondeur de lecture minimale pour considérer une base BAM normale comme couverte
tumeur-min-profondeur Entier
La profondeur de lecture minimale pour considérer une base de tumeur BAM comme couverte
min-mapq Entier
La qualité de mappage minimale des lectures à prendre en compte pour le nombre de profondeurs de lecture
DESCRIPTION
Ce script compte les bases avec une couverture suffisante dans les ROI de chaque gène dans le
paires de fichiers BAM normaux pour la tumeur et les classe en - AT, CG (non CpG) et CpG
compte. Il additionne également ces nombres de bases sur tous les retours sur investissement de chaque gène pour chaque échantillon,
mais les bases couvertes qui se trouvent dans des ROI qui se chevauchent ne sont pas comptées plus d'une fois pour
ces comptes totaux.
Par défaut, ce script exécute un outil basé sur C nommé calcRoiCovg pour chaque échantillon un après
un autre, prenant environ 30 minutes par échantillon pour générer des comptes de base couverts par ROI. Si la
les résultats de calcRoiCovg pour un échantillon existent déjà dans le sous-répertoire de sortie roi_covgs,
le recalcul est ignoré. Cela vous permet d'exécuter vos propres travaux calcRoiCovg en parallèle ou
sur plusieurs machines (Continuer à lire).
Accélérez les choses en exécutant des tâches calcRoiCovg en parallèle : si un cluster de calcul ou plusieurs
machines sont disponibles, exécutez ce script deux fois comme suit :
· Définir cmd-list-file et cmd-prefix pour générer un fichier avec des commandes qui peuvent être
soumis à un cluster ou exécutés manuellement. Ces travaux écriront les décomptes de base par ROI dans un
sous-répertoire roi_covgs.
· Une fois tous les travaux calcRoiCovg parallélisés terminés, exécutez à nouveau ce script pour
additionnez-les et générez le nombre final de bases par gène dans un sous-répertoire gene_covgs.
N'oubliez pas de supprimer les arguments cmd-list-file et cmd-prefix ou vous serez simplement re-
créer une liste de commandes.
ARGUMENTS
--roi-fichier
Les régions d'intérêt (ROI) de chaque gène sont généralement des régions ciblées pour
séquençage ou sont des loci d'exons fusionnés (à partir de plusieurs transcrits) de gènes avec 2 pb
flancs (jonctions d'épissure). Les ROI du même chromosome doivent être répertoriées à côté de
les uns les autres dans ce fichier. Cela permet au code C sous-jacent de s'exécuter beaucoup plus
efficacement et éviter de recompter les bases observées dans les ROI qui se chevauchent (pour l'ensemble couvert
comptes de base). Pour les comptages de bases par gène, une base chevauchante sera comptée à chaque fois
il apparaît dans un ROI du même gène. Pour éviter cela, assurez-vous de fusionner
chevauchement des ROI du même gène. Le mergeBed de BEDtools peut aider s'il est utilisé par gène.
--référence-séquence
La séquence de référence au format FASTA. Si un index de séquence de référence n'est pas trouvé
à côté de ce fichier (un fichier .fai), il sera créé.
--bam-liste
Fournissez un fichier contenant les noms des échantillons et les emplacements BAM normaux/tumeurs pour chacun. Utilisation
le format délimité par des tabulations [sample_name normal_bam tumor_bam] par ligne. Supplémentaire
les colonnes comme les données cliniques sont autorisées, mais ignorées. Le sample_name doit être le même
comme les noms des échantillons de tumeur utilisés dans le fichier MAF (16e colonne, avec l'en-tête
Tumor_Sample_Barcode).
--rép-sortie
Spécifiez un répertoire de sortie dans lequel les éléments suivants seront créés/écrits : roi_covgs :
Sous-répertoire contenant les décomptes de base couverts par ROI pour chaque échantillon. gene_covgs :
Sous-répertoire contenant le nombre de bases couvertes par gène pour chaque échantillon. total_covgs :
Fichier contenant les couvertures globales sans chevauchement par échantillon.
--cmd-list-fichier
Spécifiez un fichier dans lequel une liste de travaux calcRoiCovg sera écrite. Ceux-ci peuvent être
planifié en parallèle, et écrira les comptes de base couverts par ROI dans la sortie
sous-répertoire roi_covgs. Si cmd-list-file n'est pas spécifié, ce script s'exécute
calcRoiCovg par échantillon l'un après l'autre, prenant environ 30 minutes par échantillon, mais il saute
échantillons dont la sortie est déjà dans roi_covgs.
--cmd-préfixe
Spécifiez une commande de soumission de travail qui sera préfixée à chaque commande dans cmd-list-
déposer. Cela facilite la soumission par lots. Exécutez simplement le fichier cmd-list-file en tant que shell
script pour soumettre des travaux. cmd-prefix est "bsub" si votre cluster utilise le travail LSF
planificateur, ou "qsub" dans Torque. Ajoutez des arguments si nécessaire. Par exemple, "bsub -M 4 Go"
définit une limite de mémoire logicielle de 4 Go.
Utilisez genome-music-bmr-calc-covgp en ligne à l'aide des services onworks.net