AnglaisFrançaisEspagnol

Ad


Icône de favori OnWorks

bcftools - En ligne dans le Cloud

Exécutez bcftools dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande bcftools qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


samtools - Utilitaires pour le format Sequence Alignment/Map (SAM)

bcftools - Utilitaires pour le format d'appel binaire (BCF) et VCF

SYNOPSIS


vue samtools -bt ref_list.txt -o aln.bam aln.sam.gz

samtools trier aln.bam aln.sorted

index samtools aln.sorted.bam

samtools idxstats aln.sorted.bam

vue samtools aln.sorted.bam chr2:20,100,000 20,200,000 XNUMX-XNUMX XNUMX XNUMX

samtools fusionne out.bam in1.bam in2.bam in3.bam

samtools faidx réf.fasta

samtools pileup -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3: 1,000 2,000-1 2 inXNUMX.bam inXNUMX.bam

samtools tview aln.sorted.bam ref.fasta

index bcftools dans.bcf

bcftools vue in.bcf chr2:100-200 > out.vcf

vue bcftools -Nvm0.99 in.bcf > out.vcf 2> out.afs

DESCRIPTION


Samtools est un ensemble d'utilitaires qui manipulent les alignements au format BAM. Il importe
depuis et exporte au format SAM (Sequence Alignment/Map), effectue le tri, la fusion et
l'indexation et permet de récupérer rapidement les lectures dans toutes les régions.

Samtools est conçu pour fonctionner sur un flux. Il considère un fichier d'entrée « - » comme la norme
input (stdin) et un fichier de sortie « - » comme sortie standard (stdout). Plusieurs commandes peuvent
donc être combinés avec des tuyaux Unix. Samtools envoie toujours des messages d'avertissement et d'erreur au
sortie d'erreur standard (stderr).

Samtools est également capable d'ouvrir un fichier BAM (pas SAM) sur un serveur FTP ou HTTP distant si le
Le nom du fichier BAM commence par `ftp://' ou `http://'. Samtools vérifie le fonctionnement actuel
répertoire pour le fichier d'index et téléchargera l'index en cas d'absence. Samtools ne
récupérer l'intégralité du fichier d'alignement à moins qu'il ne soit invité à le faire.

OUTILS SAM COMMANDES ET OPTIONS


vue vue samtools [-bchuHS] [-t in.refList] [-o sortie] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l bibliothèque] [-r readGroup] [-R rgFile] | [région1
[...]]

Extraire/imprimer tous les ou sous-alignements au format SAM ou BAM. Si aucune région n'est
spécifié, tous les alignements seront imprimés ; sinon uniquement des alignements
chevauchant les régions spécifiées sera généré. Un alignement peut être donné
plusieurs fois s'il chevauche plusieurs régions. Une région peut être présentée,
par exemple, au format suivant : 'chr2' (le chr2) entier, 'chr2:1000000'
(région à partir de 1,000,000 2 1,000,000 pb) ou `chr2,000,000:XNUMX XNUMX XNUMX-XNUMX XNUMX XNUMX' (région entre
1,000,000 2,000,000 1 et XNUMX XNUMX XNUMX pb y compris les points finaux). La coordonnée est basée sur XNUMX.

OPTIONS :

-b Sortie au format BAM.

-f INT Seuls les alignements de sortie avec tous les bits dans INT présents dans le champ FLAG.
INT peut être en hexa au format /^0x[0-9A-F]+/ [0]

-F INT Ignorer les alignements avec les bits présents dans INT [0]

-h Incluez l'en-tête dans la sortie.

-H Sortir l'en-tête uniquement.

-l STR Seules les lectures de sortie dans la bibliothèque STR [null]

-o DOSSIER Fichier de sortie [stdout]

-q INT Ignorer les alignements avec MAPQ inférieur à INT [0]

-r STR Seules les lectures de sortie dans le groupe de lecture STR [null]

-R DOSSIER Lectures de sortie dans les groupes de lecture répertoriés dans DOSSIER [nul]

-s FLOAT Fraction de modèles/paires à sous-échantillonner ; la partie entière est traitée
comme graine pour le générateur de nombres aléatoires [-1]

-S L'entrée est en SAM. Si les lignes d'en-tête @SQ sont absentes, le `-t' option est
nécessaire.

-c Au lieu d'imprimer les alignements, comptez-les uniquement et imprimez les
nombre total. Toutes les options de filtre, telles que '-f', `-F' ainsi que `-q' , Sont
pris en compte.

-t DOSSIER Ce fichier est délimité par des tabulations. Chaque ligne doit contenir le nom de la référence
et la longueur de la référence, une ligne pour chaque référence distincte ;
les champs supplémentaires sont ignorés. Ce fichier définit également l'ordre des
séquences de référence dans le tri. Si vous exécutez `samtools faidx ',
le fichier d'index résultant .fai peut être utilisé comme ceci
fichier.

-u Sortie BAM non compressée. Cette option permet de gagner du temps sur
compression/décompression et est donc préférée lorsque la sortie est
redirigé vers une autre commande samtools.

tvoir samtools tview [-p chr:pos] [-s STR] [-d l’affichage] [réf.fasta]

Visionneuse d'alignement de texte (basée sur la bibliothèque ncurses). Dans la visionneuse, appuyez sur « ? »
pour obtenir de l'aide et appuyez sur « g » pour vérifier l'alignement à partir d'une région au format
comme « chr10 : 10,000,000 10,000,000 XNUMX » ou « = XNUMX XNUMX XNUMX » lors de l’affichage de la même référence
séquence.

Options:

-d l’affichage Sortie en (H)tml ou (C)urses ou (T)ext

-p chr:pos Aller directement à ce poste

-s STR Afficher uniquement les lectures de cet échantillon ou groupe de lecture

empiler samtools mpilup [-EBugp] [-C capQcoef] [-r reg] [-f in.fa] [-l liste] [-M
capMapQ] [-Q minBaseQ] [-q minCarteQ] in.bam [in2.bam [ ]]

Générez un BCF ou un pileup pour un ou plusieurs fichiers BAM. Les enregistrements d'alignement sont
regroupés par exemples d'identifiants dans les lignes d'en-tête @RG. Si les identificateurs d'échantillon sont
absent, chaque fichier d'entrée est considéré comme un échantillon.

Au format pileup (sans -uor-g), chaque ligne représente une position génomique,
composé du nom du chromosome, de la coordonnée, de la base de référence, des bases de lecture, de la lecture
qualités et qualités de mappage d'alignement. Informations sur la correspondance, la non-concordance,
l'indel, le brin, la qualité de mappage et le début et la fin d'une lecture sont tous codés à
la colonne de base de lecture. Dans cette colonne, un point représente une correspondance avec la référence
base sur le brin avant, une virgule pour une correspondance sur le brin inverse, un '>' ou
'<' pour un saut de référence, 'ACGTN' pour une discordance sur le brin avant et
`acgtn' pour une incompatibilité sur le brin inverse. Un modèle `\+[0-9]+[ACGTNacgtn]+'
indique qu'il y a une insertion entre cette position de référence et la suivante
poste de référence. La longueur de l'insertion est donnée par l'entier dans le
motif, suivi de la séquence insérée. De même, un modèle
`-[0-9]+[ACGTNacgtn]+' représente une suppression de la référence. Le supprimé
bases seront présentées comme `*' dans les lignes suivantes. Également à la base de lecture
colonne, un symbole `^' marque le début d'une lecture. L'ASCII du personnage
suivant `^' moins 33 donne la qualité de mappage. Un symbole `$' marque la fin de
un segment de lecture.

Entrée Options:

-6 Supposons que la qualité est dans l'encodage Illumina 1.3+. -A Ne passe pas
paires de lecture anormales dans l'appel de variante.

-B Désactiver le recalage probabiliste pour le calcul de la base
qualité d'alignement (BAQ). BAQ est la probabilité d'une lecture à l'échelle de Phred
la base est mal alignée. L'application de cette option aide grandement à réduire
faux SNP causés par des désalignements.

-b DOSSIER Liste des fichiers BAM d'entrée, un fichier par ligne [null]

-C INT Coefficient de dégradation de la qualité du mappage pour les lectures contenant
décalages excessifs. Étant donné une lecture avec une probabilité à l'échelle de phred q
d'être généré à partir de la position cartographiée, la nouvelle qualité de cartographie
est d'environ sqrt((INT-q)/INT)*INT. Une valeur zéro désactive cette
Fonctionnalité; si activé, la valeur recommandée pour BWA est 50. [0]

-d INT À une position, lisez au maximum INT lit par entrée BAM. [250]

-E Calcul BAQ étendu. Cette option améliore la sensibilité, en particulier pour les
MNP, mais peut nuire un peu à la spécificité.

-f DOSSIER La faidx-fichier de référence indexé au format FASTA. Le fichier peut être
éventuellement compressé par raser. [nul]

-l DOSSIER BED ou fichier de liste de positions contenant une liste de régions ou de sites où
pileup ou BCF doit être généré [null]

-q INT Qualité de mappage minimale pour un alignement à utiliser [0]

-Q INT Qualité de base minimale pour une base à considérer [13]

-r STR Générer un pileup uniquement dans la région STR [tous les sites]

Sortie Options:

-D Profondeur de lecture par échantillon de sortie

-g Calculer les probabilités de génotype et les afficher au format d'appel binaire
(FBC).

-S Valeur P de polarisation de brin à l'échelle de Phred par échantillon de sortie

-u Similaire à -g sauf que la sortie est un BCF non compressé, qui est
préféré pour la tuyauterie.

Options en Génotype Probabilité Calcul (Pour -g or -u) :

-e INT Probabilité d'erreur de séquençage d'extension de trou à l'échelle de Phred. Réduire INT
conduit à des indels plus longs. [20]

-h INT Coefficient de modélisation des erreurs d'homopolymère. Étant donné un l-longue
homopolymère run, l'erreur de séquençage d'un indel de taille s est modélisé
as INT*s/l... [100]

-I Ne pas effectuer d'appel INDEL

-L INT Ignorez l'appel INDEL si la profondeur moyenne par échantillon est supérieure INT.


-o INT Probabilité d'erreur de séquençage ouvert à l'échelle de Phred. Réduire INT conduit
à plus d'appels indel. [40]

-p Appliquer les seuils -m et -F par échantillon pour augmenter la sensibilité de
appel. Par défaut, les deux options sont appliquées aux lectures regroupées de tous
des échantillons.

-P STR Liste de plates-formes délimitée par des virgules (déterminée par @RG-PL) à partir duquel
candidats indel sont obtenus. Il est recommandé de collecter indel
candidats des technologies de séquençage qui ont un faible taux d'erreur indel
comme ILLUMINA. [tous]

réen-tête reheader samtools

Remplacer l'en-tête dans in.bam avec l'en-tête dans dans.header.sam. Cette commande est
beaucoup plus rapide que de remplacer l'en-tête par une conversion BAM->SAM->BAM.

cat samtools cat [-h header.sam] [-o out.bam] [ ... ]

Concaténer les BAM. Le dictionnaire de séquences de chaque entrée BAM doit être identique,
bien que cette commande ne vérifie pas cela. Cette commande utilise une astuce similaire pour
réen-tête qui permet une concaténation BAM rapide.

sort samtools sort [-nof] [-m maxMem]

Triez les alignements par les coordonnées les plus à gauche. Déposer .bam sera créé.
Cette commande peut également créer des fichiers temporaires .%d.bam quand l'ensemble
l'alignement ne peut pas être mis en mémoire (contrôlé par l'option -m).

OPTIONS :

-o Sortez l'alignement final sur la sortie standard.

-n Trier par noms de lecture plutôt que par coordonnées chromosomiques

-f Utilisez comme chemin de sortie complet et n'ajoutez pas .bam suffixe.

-m INT Environ la mémoire maximale requise. [500000000]

fusionner samtools merge [-nur1f] [-h inh.sam] [-R reg]
[...]

Fusionnez plusieurs alignements triés. Les listes de référence d'en-tête de toutes les entrées
les fichiers BAM et les en-têtes @SQ de inh.sam, le cas échéant, doivent tous se référer au même
ensemble de séquences de référence. La liste de références d'en-tête et (à moins qu'elle ne soit remplacée par
-h) `@' en-têtes de in1.bam sera copié sur bam, et les en-têtes des autres
les fichiers seront ignorés.

OPTIONS :

-1 Utilisez le niveau de compression zlib 1 pour compresser la sortie

-f Forcer l'écrasement du fichier de sortie s'il est présent.

-h DOSSIER Utilisez les lignes de DOSSIER comme en-têtes `@' à copier vers bam, remplaçant
toutes les lignes d'en-tête qui seraient autrement copiées à partir de in1.bam. (DOSSIER is
en fait au format SAM, bien que tous les enregistrements d'alignement qu'il puisse contenir soient
ignoré.)

-n Les alignements d'entrée sont triés par noms de lecture plutôt que par chromosomique
les coordonnées

-R STR Fusionner les fichiers dans la région spécifiée indiquée par STR [nul]

-r Attachez une balise RG à chaque alignement. La valeur de la balise est déduite du fichier
des noms.

-u Sortie BAM non compressée

indice indice samtools

Alignement trié par index pour un accès aléatoire rapide. Fichier d'index .bai sera
créé.

idxstats idxstats de samtools

Récupérez et imprimez les statistiques dans le fichier d'index. La sortie est délimitée par des tabulations
chaque ligne comprenant le nom de la séquence de référence, la longueur de la séquence, le nombre de lectures mappées
et # lectures non mappées.

faidx samtools faidx [région1 [...]]

Indexer la séquence de référence au format FASTA ou extraire la sous-séquence de l'indexé
séquence de référence. Si aucune région n'est spécifiée, faidx indexera le fichier et
engendrent .fai sur le disque. Si les régions sont spécifiées, les sous-séquences
sera récupéré et imprimé sur stdout au format FASTA. Le fichier d'entrée peut
être comprimé dans le RAZF le format.

compagnon fixe samtools fixmate

Renseignez les coordonnées de contrainte, l'ISIZE et les drapeaux liés à la contrainte à partir d'un nom trié
alignement.

rmdup samtools rmdup [-sS]

Supprimer les doublons potentiels de PCR : si plusieurs paires de lecture ont des
coordonnées, ne conservez que la paire avec la meilleure qualité de cartographie. Dans le jumelé-
mode de fin, cette commande UNIQUEMENT fonctionne avec l'orientation FR et nécessite ISIZE est
correctement réglé. Cela ne fonctionne pas pour les lectures non appariées (par exemple, deux extrémités mappées sur
chromosomes différents ou lectures orphelines).

OPTIONS :

-s Supprimez les doublons pour les lectures asymétriques. Par défaut, la commande fonctionne pour
lectures appariées uniquement.

-S Traitez les lectures appariées et les lectures simples.

apaisé samtools calmd [-EeubSr] [-C capQcoef]

Générez la balise MD. Si la balise MD est déjà présente, cette commande donnera un
avertissement si le tag MD généré est différent du tag existant. SAM de sortie
par défaut.

OPTIONS :

-A Lorsqu'il est utilisé conjointement avec -r cette option écrase la base d'origine
qualité.

-e Convertir une base de lecture en = si elle est identique à la référence alignée
base. L'appelant Indel ne prend pas en charge les bases = pour le moment.

-u Sortie BAM non compressée

-b Sortie BAM compressée

-S L'entrée est SAM avec des lignes d'en-tête

-C INT Coefficient pour limiter la qualité de mappage des lectures mal mappées. Voir le
entasser commande pour plus de détails. [0]

-r Calculez le tag BQ (sans -A) ou la qualité de base du cap par BAQ (avec -A).

-E Calcul du BAQ étendu. Cette option négocie la spécificité pour
sensibilité, bien que l'effet soit mineur.

coupe cible samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
réf]

Cette commande identifie les régions cibles en examinant la continuité de la lecture
profondeur, calcule les séquences consensus haploïdes de cibles et génère un SAM avec
chaque séquence correspondant à une cible. Quand option -f est en cours d'utilisation, BAQ sera
appliqué. Cette commande est uniquement conçu pour couper les clones de fosmides à partir de fosmides
séquençage de pool [Réf. Kitzman et al. (2010)].

phase phase samtools [-AF] [-k len] [-b préfixe] [-q minLOD] [-Q minBaseQ]

Appelez et phasez les SNP hétérozygotes. OPTIONS :

-A Drop reads avec phase ambiguë.

-b STR Préfixe de sortie BAM. Lorsque cette option est utilisée, les lectures de la phase 0 seront
enregistré dans un fichier STR.0.bam et la phase-1 lit dans STR.1.bam. Phase inconnue
reads seront alloués aléatoirement à l'un des deux fichiers. Lectures chimériques
avec des erreurs de commutation sera enregistré dans STR.chimérique.bam. [nul]

-F N'essayez pas de corriger les lectures chimériques.

-k INT Longueur maximale pour le phasage local. [13]

-q INT LOD minimum à l'échelle de Phred pour appeler un hétérozygote. [40]

-Q INT Qualité de base minimale à utiliser dans les appels het. [13]

OUTILS BCF COMMANDES ET OPTIONS


vue outils bcf vue [-AbFGNQSucgv] [-D seqDict] [-l listeLoci] [-s listeÉchantillon] [-i
écartSNratio] [-t tauxmut] [-p varSeuil] [-m varSeuil] [-P avant] [-1 nGroupe1]
[-d minFrac] [-U nPerm] [-X seuils permanents] [-T TrioType] dans.bcf [région]

Convertir entre BCF et VCF, appeler des candidats variants et estimer l'allèle
fréquences.

Entrée / Sortie Options:

-A Conserver tous les allèles alternatifs possibles sur les sites variants. Par défaut,
la commande view supprime les allèles improbables.

-b Sortie au format BCF. La valeur par défaut est VCF.

-D DOSSIER Dictionnaire de séquences (liste des noms de chromosomes) pour la conversion VCF->BCF
[nul]

-F Indique que PL est généré par r921 ou avant (la commande est différente).

-G Supprimez toutes les informations de génotype individuel.

-l DOSSIER Liste des sites sur lesquels les informations sont sorties [tous les sites]

-N Ignorer les sites où le champ REF n'est pas A/C/G/T

-Q Sortir le format de vraisemblance QCALL

-s DOSSIER Liste des échantillons à utiliser. La première colonne de l'entrée donne l'échantillon
noms et le second donne la ploïdie, qui ne peut être que 1 ou 2. Quand
la 2ème colonne est absente, la ploïdie de l'échantillon est supposée être 2. Dans la
sortie, l'ordre des échantillons sera identique à celui de DOSSIER.
[nul]

-S L'entrée est VCF au lieu de BCF.

-u Sortie BCF non compressée (force -b).

Consensus/Variante appel Options:

-c Appelez des variantes en utilisant l'inférence bayésienne. Cette option automatiquement
invoque l'option -e.

-d FLOAT Quand -v est en cours d'utilisation, ignorez les loci où la fraction d'échantillons couverte par
lit est en dessous de FLOAT. [0]

-e Effectuer uniquement une inférence de vraisemblance maximale, y compris l'estimation du site
fréquence des allèles, test de l'équilibre de Hardy-Weinberg et test
associations avec le TLR.

-g Appelez les génotypes par échantillon sur les sites variants (force -c)

-i FLOAT Ratio du taux de mutation INDEL/SNP [0.15]

-m FLOAT Nouveau modèle pour les appels multialléliques et variantes rares améliorés. Un autre
L'allèle ALT est accepté si P(chi^2) de LRT dépasse le seuil FLOAT.
Le paramètre semble robuste et la valeur réelle n'est généralement pas
affecter beaucoup les résultats ; une bonne valeur à utiliser est de 0.99. C'est le
méthode d'appel recommandée. [0]

-p FLOAT Un site est considéré comme une variante si P(ref|D)

-P STR Spectre de fréquence allélique antérieur ou initial. Si STR peut être plein, condition2,
plat ou le fichier constitué de la sortie d'erreur d'une variante précédente
appelant courir.

-t FLOAT Taux de mutation échelonné pour les variantes d'appel [0.001]

-T STR Activer les appels en paire/trio. Pour les appels en trio, option -s est généralement
devait être appliqué pour configurer les membres du trio et leur ordre.
Dans le fichier fourni à l'option -s, le premier échantillon doit être le
l'enfant, le deuxième le père et le troisième la mère. Le valide
valeurs de STR sont `pair', `trioauto', `trioxd' et 'trioxs', où
`pair' appelle les différences entre deux échantillons d'entrée, et `trioxd'
(`trioxs') spécifie que l'entrée provient du chromosome X non-PAR
régions et l'enfant est une femme (homme). [nul]

-v Sites de variante de sortie uniquement (force -c)

Comparaison appel ainsi que Association Teste Options:

-1 INT Nombre d'échantillons du groupe 1. Cette option est utilisée pour diviser le
échantillons en deux groupes pour le test d'appel ou d'association SNP de contraste.
Lorsque cette option est utilisée, les informations VCF suivantes seront affichées :
PC2, PCHI2 et QCHI2. [0]

-U INT Nombre de permutations pour le test d'association (efficace uniquement avec -1)


-X FLOAT N'effectuez les permutations que pour P(chi^2) -U)


indice outils bcf indice dans.bcf

Index trié BCF pour un accès aléatoire.

cat outils bcf cat in1.bcf [in2.bcf [ ]]]

Concaténer les fichiers BCF. Les fichiers d'entrée doivent être triés et avoir
échantillons identiques apparaissant dans le même ordre.

SAM Format


Le format d'alignement/carte de séquence (SAM) est délimité par des tabulations. Outre les lignes d'en-tête, qui
commencent par le symbole « @ », chaque ligne d'alignement se compose de :

?? ??
AvecChampDescription
?? ??
│ 1 │ QNAME │ Modèle de requête/paire NAME │
│ 2 │ DRAPEAU │ DRAPEAU au niveau du bit │
│ 3 │ RNAME │ Séquence de référence NAME │
│ 4 │ POS │ POSITION/coordonnée la plus à gauche basée sur 1 de la séquence écrêtée │
│ 5 │ MAPQ │ Qualité MAPping (échelle Phred) │
│ 6 │ CIAGR │ chaîne CIGAR étendue │
│ 7 │ MRNM │ Mate Séquence de référence NaMe (`=' si identique à RNAME) │
│ 8 │ MPOS │ Mate POSistion basé sur 1 │
│ 9 │ TLEN │ inféré Template LENgth (insérer la taille) │
│10 │ SEQ │ requête SEQuence sur le même brin que la référence │
│11 │ QUAL requête QUALité (ASCII-33 donne la qualité de base Phred) │
│12+ │ OPT │ champs OPTIONNELS variables au format TAG:VTYPE:VALUE │
?? ??

Chaque bit du champ FLAG est défini comme :

?? ??
DrapeauChrDescription
?? ??
│0x0001 │ p │ la lecture est appariée en séquençage │
│0x0002 │ P │ la lecture est mappée dans une paire appropriée │
│0x0004 │ u │ la séquence de requête elle-même n'est pas mappée │
│0x0008 │ U │ la contrainte n'est pas mappée │
│0x0010 │ r │ brin de la requête (1 pour l'inverse) │
│0x0020 │ R │ brin du compagnon │
│0x0040 │ 1 │ la lecture est la première lecture d'une paire │
│0x0080 │ 2 │ la lecture est la deuxième lecture d'une paire │
│0x0100 │ s │ l'alignement n'est pas primaire │
│0x0200 │ f │ la lecture échoue aux contrôles de qualité de la plate-forme/du fournisseur │
│0x0400 │ d │ la lecture est soit une PCR soit un duplicata optique │
?? ??
où la deuxième colonne donne la représentation sous forme de chaîne du champ FLAG.

VCF Format


Le Variant Call Format (VCF) est un format délimité par des tabulations avec chaque ligne de données se compose de
les champs suivants :

?? ??
AvecChampDescription
?? ??
│ 1 │ CHROM │ Nom CHROMosome │
│ 2 │ POS │ la POSition la plus à gauche de la variante │
│ 3 │ ID │ identifiant de variante unique │
│ 4 │ REF │ l'allèle de référence │
│ 5 │ ALT │ le(s) allèle(s) alternatif(s), séparés par une virgule │
│ 6 │ QUAL variante/référence QUALité │
│ 7 │ FILTRE │ FILTRES appliqués │
│ 8 │ INFO │ INFOrmation relative à la variante, séparée par un point-virgule │
│ 9 │ FORMAT │ FORMAT des champs de génotypes, séparés par deux points (facultatif) │
│10+ │ ÉCHANTILLON │ ÉCHANTILLONS génotypes et informations par échantillon (facultatif) │
?? ??

Le tableau suivant donne les INFO balises utilisées par samtools et bcftools.

?? ?? ??
JourFormatDescription
?? ?? ??
?? ?? ??

EXEMPLES


o Importer SAM dans BAM lorsque @SQ des lignes sont présentes dans l'en-tête :

vue samtools -bS aln.sam > aln.bam

If @SQ les lignes sont absentes :

samtools faidx réf.fa
vue samtools -bt ref.fa.fai aln.sam > aln.bam

De réf.fa.fai est généré automatiquement par le faidx commander.

o Attachez le RG tag lors de la fusion des alignements triés :

perl -e 'imprimer
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools merge -rh rg.txt fusionné.bam ga.bam 454.bam

La valeur dans un RG tag est déterminé par le nom du fichier d'où provient la lecture. Dans ce
exemple, dans le fusionné.bam, lit de ga.bam sera attaché RG:Z:ga, tandis que lit de
454.bam sera attaché RG:Z:454.

o Appelez les SNP et les INDEL courts pour un individu diploïde :

samtools mpileup -ugf ref.fa aln.bam | vue bcftools -bvcg -> var.raw.bcf
vue bcftools var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

La -D L'option de varFilter contrôle la profondeur de lecture maximale, qui doit être ajustée à
environ deux fois la profondeur de lecture moyenne. On peut envisager d'ajouter -C50 à empiler si mappage
la qualité est surestimée pour les lectures contenant des écarts excessifs. Appliquer cette option
aide généralement BWA-court mais peut-être pas d'autres mappeurs.

o Générer la séquence consensus pour un individu diploïde :

samtools mpileup -uf ref.fa aln.bam | vue bcftools -cg - | vcfutils.pl vcf2fq >
cns.fq

o Appelez mutations somatiques à partir d'une paire d'échantillons :

samtools mpileup -DSuf ref.fa aln.bam | vue bcftools -paire bvcgT -> var.bcf

Dans le champ INFO de sortie, CLR donne le rapport Phred-log entre la vraisemblance par
traiter les deux échantillons indépendamment, et la probabilité en exigeant que le génotype
être identique. Cette CLR est effectivement un score mesurant la confiance des
appels. Plus c'est haut, mieux c'est.

o Appel de novo et mutations somatiques d'un trio familial :

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -s samples.txt ->
var.bcf

Déposez votre dernière attestation exemples.txt doit être composé de trois lignes précisant le membre et l'ordre de
échantillons (dans l'ordre enfant-père-mère). De la même manière, CLR donne le Phred-log
rapport de vraisemblance avec et sans la contrainte trio. UGT montre le plus probable
configuration du génotype sans la contrainte du trio, et CGT donne le plus probable
configuration du génotype satisfaisant la contrainte du trio.

o Individu de la phase un :

samtools calmd -AEur aln.bam ref.fa | samtools phase -b préfixe -> phase.out

La apaisé La commande est utilisée pour réduire les faux hétérozygotes autour des INDEL.

o Appelez les SNP et les indels courts pour plusieurs individus diploïdes :

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | vue bcftools -bcvg -> var.raw.bcf
vue bcftools var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

Les individus sont identifiés à partir du SM balises dans le @RG lignes d'en-tête. Les individus peuvent être
regroupés dans un seul fichier d'alignement ; un individu peut également être séparé en plusieurs fichiers.
La -P L'option spécifie que les candidats indel doivent être collectés uniquement à partir des groupes de lecture
les @RG-PL balise définie sur ILLUMINA. Collecte des candidats indel à partir des lectures séquencées
par une technologie sujette à indel peut affecter les performances de l'appel indel.

Notez qu'il existe un nouveau modèle d'appel qui peut être invoqué par

vue bcftools -m0.99 ...

qui corrige certaines limitations sévères de la méthode par défaut.

Pour le filtrage, les meilleurs résultats semblent être obtenus en appliquant d'abord le SnpGap filtre et
puis appliquer une approche d'apprentissage automatique

vcf-annoter -f SnpGap=n
filtre vcf...

Les deux peuvent être trouvés dans le outils vcf ainsi que htslib forfait (liens ci-dessous).

o Dérivez le spectre de fréquences alléliques (AFS) sur une liste de sites de plusieurs individus :

samtools mpileup -Igf ref.fa *.bam > all.bcf
vue bcftools -bl sites.list all.bcf > sites.bcf
vue bcftools -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
vue bcftools -cGP sites.1.afs sites.bcf > /dev/null 2> sites.2.afs
vue bcftools -cGP sites.2.afs sites.bcf > /dev/null 2> sites.3.afs
......

De sites.liste contient la liste des sites avec chaque ligne constituée de la référence
nom et position de la séquence. Ce qui suit outils bcf les commandes estiment AFS par EM.

o Dump BAQ appliqué l'alignement pour les autres appelants SNP :

samtools calmd -bAr aln.bam > aln.baq.bam

Il ajoute et corrige le NM ainsi que MD balises en même temps. Les apaisé la commande vient aussi
les -C option, la même que celle de entasser ainsi que empiler. Postulez si cela vous aide.

LIMITATIONS


o Mots non alignés utilisés dans bam_import.c, bam_endian.h, bam.c et bam_aux.c.

o Samtools paired-end rmdup ne fonctionne pas pour les lectures non appariées (par exemple, les lectures ou les extrémités orphelines
mappé sur différents chromosomes). S'il s'agit d'un problème, veuillez utiliser Picard
MarkDuplicate qui gère correctement ces cas, bien qu'un peu plus lent.

Utilisez bcftools en ligne à l'aide des services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

  • 1
    Firebird
    Firebird
    Firebird RDBMS offre des fonctionnalités ANSI SQL
    & fonctionne sous Linux, Windows &
    plusieurs plates-formes Unix. Fonctionnalités
    excellente simultanéité et performances
    & Puissance...
    Télécharger Firebird
  • 2
    KompoZer
    KompoZer
    KompoZer est un éditeur HTML wysiwyg utilisant
    la base de code de Mozilla Composer. Comme
    Le développement de Nvu a été arrêté
    en 2005, KompoZer corrige de nombreux bugs et
    ajoute un f...
    Télécharger KompoZer
  • 3
    Téléchargeur de mangas gratuit
    Téléchargeur de mangas gratuit
    Le Free Manga Downloader (FMD) est un
    application open source écrite en
    Object-Pascal pour la gestion et
    télécharger des mangas à partir de divers sites Web.
    C'est un miroir...
    Télécharger gratuitement Manga Downloader
  • 4
    UNetbootin
    UNetbootin
    UNetbootin vous permet de créer un bootable
    Clés USB Live pour Ubuntu, Fedora et
    autres distributions Linux sans
    graver un CD. Il fonctionne sous Windows, Linux,
    et ...
    Télécharger UNetbootin
  • 5
    Dolibarr ERP-CRM
    Dolibarr ERP-CRM
    Dolibarr ERP - CRM est un outil simple d'utilisation
    Progiciel open source ERP et CRM
    (exécuté avec un serveur web php ou comme
    logiciel autonome) pour les entreprises,
    fondations...
    Télécharger Dolibarr ERP - CRM
  • 6
    Client SQL SQuirreL
    Client SQL SQuirreL
    SQuirreL SQL Client est un SQL graphique
    client écrit en Java qui permettra
    vous permet de visualiser la structure d'un JDBC
    base de données conforme, parcourir les données dans
    les tables...
    Télécharger le client SQL SQuirreL
  • Plus "

Commandes Linux

Ad