InglésFrancésEspañol

Ad


icono de página de OnWorks

bcftools - Online en la nube

Ejecute bcftools en el proveedor de alojamiento gratuito de OnWorks sobre Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando bcftools que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


samtools - Utilidades para el formato de alineación / mapa de secuencia (SAM)

bcftools: utilidades para el formato de llamada binaria (BCF) y VCF

SINOPSIS


vista de samtools -bt ref_list.txt -o aln.bam aln.sam.gz

samtools ordenar aln.bam aln.sorted

índice de samtools aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools ver aln.sorted.bam chr2: 20,100,000-20,200,000

samtools fusiona out.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

Apilamiento de samtools -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3: 1,000-2,000 in1.bam in2.bam

samtools tview aln.ordenado.bam ref.fasta

índice bcftools en.bcf

bcftools ver in.bcf chr2: 100-200> out.vcf

bcftools view -Nvm0.99 in.bcf> out.vcf 2> out.afs

DESCRIPCIÓN


Samtools es un conjunto de utilidades que manipulan alineaciones en formato BAM. Importa
desde y exporta al formato SAM (Sequence Alignment / Map), ordena, combina y
indexación, y permite recuperar lecturas en cualquier región rápidamente.

Samtools está diseñado para funcionar en una secuencia. Considera un archivo de entrada `- 'como el estándar
input (stdin) y un archivo de salida `- 'como salida estándar (stdout). Varios comandos pueden
así combinarse con tuberías Unix. Samtools siempre envía mensajes de error y advertencia al
salida de error estándar (stderr).

Samtools también puede abrir un archivo BAM (no SAM) en un servidor FTP o HTTP remoto si el
El nombre del archivo BAM comienza con 'ftp: //' o 'http: //'. Samtools comprueba el funcionamiento actual
directorio para el archivo de índice y descargará el índice en caso de ausencia. Samtools no
recuperar todo el archivo de alineación a menos que se le solicite.

SAMTOOLS COMANDOS Y CAMPUS


view samtools view [-bchuHS] [-t in.refList] [-o salida] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l biblioteca] [-r readGroup] [-R rgFile] | [region1
[...]]

Extraiga / imprima todas las alineaciones o subalineaciones en formato SAM o BAM. Si ninguna región es
especificado, se imprimirán todas las alineaciones; de lo contrario solo alineaciones
se superpondrán las regiones especificadas. Se puede dar una alineación
varias veces si se superpone a varias regiones. Se puede presentar una región,
por ejemplo, en el siguiente formato: `chr2 '(todo el chr2),` chr2: 1000000'
(región a partir de 1,000,000 pb) o `chr2: 1,000,000-2,000,000 '(región entre
1,000,000 y 2,000,000 pb, incluidos los puntos finales). La coordenada está basada en 1.

OPCIONES:

-b Salida en formato BAM.

-f INT Solo genera alineaciones con todos los bits de INT presentes en el campo FLAG.
INT puede estar en hexadecimal en el formato / ^ 0x [0-9A-F] + / [0]

-F INT Omitir alineaciones con bits presentes en INT [0]

-h Incluya el encabezado en la salida.

-H Imprime solo el encabezado.

-l STR Solo las lecturas de salida en la biblioteca STR [nulo]

-o ARCHIVO Archivo de salida [stdout]

-q INT Omitir alineaciones con MAPQ menor que INT [0]

-r STR Solo las lecturas de salida en el grupo de lectura STR [nulo]

-R ARCHIVO La salida lee en los grupos de lectura enumerados en ARCHIVO [nulo]

-s FLOAT Fracción de plantillas / pares a submuestra; la parte entera se trata
como semilla para el generador de números aleatorios [-1]

-S La entrada está en SAM. Si las líneas de encabezado de @SQ están ausentes, el `-t ' opción es
requerida.

-c En lugar de imprimir las alineaciones, solo cuéntelas e imprima el
numero total. Todas las opciones de filtro, como `-f ', `-F ' y `-q ' , son
tenido en cuenta.

-t ARCHIVO Este archivo está delimitado por TAB. Cada línea debe contener el nombre de la referencia
y la longitud de la referencia, una línea por cada referencia distinta;
los campos adicionales se ignoran. Este archivo también define el orden de la
secuencias de referencia en la clasificación. Si ejecuta `samtools faidx ',
el archivo de índice resultante .fai se puede usar como esto
archivo.

-u Salida BAM sin comprimir. Esta opción ahorra tiempo en
compresión / descompresión y, por lo tanto, se prefiere cuando la salida es
canalizado a otro comando samtools.

vista de televisión tview de samtools [-p chr: pos] [-s STR] [-d la visualización] [ref.fasta]

Visor de alineación de texto (basado en la biblioteca ncurses). En el visor, presione `? '
para obtener ayuda y presione 'g' para verificar que la alineación comience desde una región en el formato
como `chr10: 10,000,000 'o` = 10,000,000' al ver la misma referencia
secuencia.

Opciones:

-d la visualización Salida como (H) tml o (C) urses o (T) ext

-p chr: pos Ir directamente a esta posición

-s STR Mostrar solo lecturas de esta muestra o grupo de lectura

compilar compilación de samtools [-EBugp] [-C capQcoef] [-r reg] [-f en.fa] [-l lista] [-M
capMapQ] [-Q minBaseQ] [-q minMapaQ] pulg. [in2.bam [...]]

Genere BCF o pileup para uno o varios archivos BAM. Los registros de alineación son
agrupados por identificadores de muestra en las líneas de encabezado de @RG. Si los identificadores de muestra son
ausente, cada archivo de entrada se considera como una muestra.

En formato pileup (sin -uor-g), cada línea representa una posición genómica,
que consta de nombre de cromosoma, coordenada, base de referencia, bases de lectura, lectura
cualidades y cualidades del mapeo de alineación. Información sobre coincidencia, discrepancia,
indel, strand, mapeo de calidad y el inicio y el final de una lectura están codificados en
la columna base de lectura. En esta columna, un punto representa una coincidencia con la referencia
base en la hebra delantera, una coma para una coincidencia en la hebra inversa, un '>' o
'<' para un salto de referencia, 'ACGTN' para una falta de coincidencia en la hebra delantera y
'acgtn' para un desajuste en la hebra inversa. Un patrón '\ + [0-9] + [ACGTNacgtn] +'
indica que hay una inserción entre esta posición de referencia y la siguiente
posición de referencia. La longitud de la inserción viene dada por el número entero en el
patrón, seguido de la secuencia insertada. Del mismo modo, un patrón
`- [0-9] + [ACGTNacgtn] + 'representa una eliminación de la referencia. El eliminado
las bases se presentarán como '*' en las siguientes líneas. También en la base de lectura
columna, un símbolo '^' marca el inicio de una lectura. El ASCII del personaje
después de '^' menos 33 da la calidad del mapeo. Un símbolo '$' marca el final de
un segmento leído.

Entrada Opciones:

-6 Suponga que la calidad está en la codificación Illumina 1.3+. -A No omitas
pares de lectura anómalos en la llamada variante.

-B Desactive la realineación probabilística para el cálculo de la base
calidad de alineación (BAQ). BAQ es la probabilidad en escala Phred de una lectura
la base está desalineada. Aplicar esta opción ayuda enormemente a reducir
SNP falsos causados ​​por desalineaciones.

-b ARCHIVO Lista de archivos BAM de entrada, un archivo por línea [nulo]

-C INT Coeficiente para degradar la calidad del mapeo para lecturas que contienen
desajustes excesivos. Dada una lectura con una probabilidad q en escala phred
de ser generado a partir de la posición mapeada, la nueva calidad de mapeo
se trata de sqrt ((INT-q) / INT) * INT. Un valor cero deshabilita esto
funcionalidad; si está habilitado, el valor recomendado para BWA es 50. [0]

-d INT En una posición, lee al máximo INT lee por entrada BAM. [250]

-E Cálculo BAQ extendido. Esta opción ayuda a la sensibilidad especialmente para
MNP, pero pueden dañar un poco la especificidad.

-f ARCHIVO El faidx-archivo de referencia indexado en formato FASTA. El archivo puede ser
opcionalmente comprimido por arrasar. [nulo]

-l ARCHIVO Archivo de lista de posición o BED que contiene una lista de regiones o sitios donde
Se debe generar pileup o BCF [nulo]

-q INT Calidad de mapeo mínima para que se utilice una alineación [0]

-Q INT Calidad de base mínima para considerar una base [13]

-r STR Solo generar pileup en la región STR [todos los sitios]

Salida Opciones:

-D Profundidad de lectura de salida por muestra

-g Calcule las probabilidades de genotipo y envíelas en formato de llamada binaria
(BCF).

-S Salida por muestra Valor P de sesgo de hebra en escala Phred

-u Similar a -g excepto que la salida es BCF sin comprimir, que es
preferido para tuberías.

Opciones para Genotipo Probabilidad Cálculo (solo para -g or -u):

-e INT Probabilidad de error de secuenciación de extensión de brecha a escala phred. Reducir INT
conduce a indeles más largos. [20]

-h INT Coeficiente para modelar errores de homopolímeros. Dado un l-largo
ejecución de homopolímero, el error de secuenciación de una indel de tamaño s está modelado
as INT*s/l. [100]

-I No realice llamadas INDEL

-L INT Omita la llamada INDEL si la profundidad promedio por muestra está por encima INT.
[ 250 ]

-o INT Probabilidad de error de secuenciación abierta de brecha a escala phred. Reducir INT leads.
a más llamadas indel. [40]

-p Aplique los umbrales -my -F por muestra para aumentar la sensibilidad de
vocación. De forma predeterminada, ambas opciones se aplican a las lecturas agrupadas de todos
muestras

-P STR Lista de plataformas limitada por comas (determinada por @ RG-PL) a partir del cual
Se obtienen candidatos indel. Se recomienda recolectar indel
candidatos de tecnologías de secuenciación que tienen una baja tasa de error indel
como ILLUMINA. [todos]

reencabezado reheader samtools

Reemplazar el encabezado en pulg. con el encabezado en en.encabezado.sam. Este comando es
mucho más rápido que reemplazar el encabezado con una conversión BAM-> SAM-> BAM.

gato gato samtools [-h header.sam] [-o out.bam] [...]

Concatenar BAM. El diccionario de secuencia de cada BAM de entrada debe ser idéntico,
aunque este comando no lo marca. Este comando usa un truco similar para
reencabezado lo que permite una rápida concatenación de BAM.

sort samtools sort [-nof] [-m maxMem]

Ordene las alineaciones por coordenadas más a la izquierda. Expediente .bam se creará.
Este comando también puede crear archivos temporales .% d.bam cuando todo
la alineación no se puede instalar en la memoria (controlada por la opción -m).

OPCIONES:

-o Imprima la alineación final a la salida estándar.

-n Ordenar por nombres leídos en lugar de por coordenadas cromosómicas

-f Uso como la ruta de salida completa y no anexar .bam sufijo.

-m INT Aproximadamente la memoria máxima requerida. [500000000]

unir samtools fusionar [-nur1f] [-h inh.sam] [-R reg]
[...]

Fusionar varias alineaciones ordenadas. Las listas de referencia del encabezado de todas las entradas
Archivos BAM y los encabezados @SQ de inh.sam, si los hay, todos deben referirse al mismo
conjunto de secuencias de referencia. La lista de referencia del encabezado y (a menos que se anule por
-h) '@' encabezados de in1.bam será copiado a fuera.bamy los encabezados de otros
los archivos se ignorarán.

OPCIONES:

-1 Utilice el nivel de compresión de zlib 1 para comparar la salida

-f Obligar a sobrescribir el archivo de salida si está presente.

-h ARCHIVO Usa las líneas de ARCHIVO como encabezados `@ 'para copiarlos fuera.bam, reemplazando
cualquier línea de encabezado que de otro modo se copiaría in1.bam (ARCHIVO is
en realidad en formato SAM, aunque cualquier registro de alineación que pueda contener es
ignorado.)

-n Las alineaciones de entrada se ordenan por nombres leídos en lugar de por cromosomas
coordenadas

-R STR Fusionar archivos en la región especificada indicada por STR [nulo]

-r Adjunte una etiqueta RG a cada alineación. El valor de la etiqueta se infiere del archivo
Nombres

-u Salida BAM sin comprimir

índice índice samtools

Alineación ordenada por índices para un acceso aleatorio rápido. Archivo de índice .bai se mostrarán
creado.

idxstats samtools idxstats

Recupere e imprima estadísticas en el archivo de índice. La salida está delimitada por TAB con
cada línea consta del nombre de la secuencia de referencia, la longitud de la secuencia, el número de lecturas mapeadas
y # lecturas sin asignar.

faidx samtools faidx [región1 [...]]

Indice la secuencia de referencia en el formato FASTA o extraiga la subsecuencia de
secuencia de referencia. Si no se especifica ninguna región, faidx indexará el archivo y
Para crear .fai en el disco. Si se especifican regiones, las subsecuencias
se recuperará e imprimirá en la salida estándar en formato FASTA. El archivo de entrada puede
ser comprimido en el RAZF formato.

fijo samtools fixmate

Complete las coordenadas de relación de posición, ISIZE y las banderas relacionadas con la relación de posición de un
alineación.

rmdup samtools rmdup [-sS]

Elimine posibles duplicados de PCR: si varios pares de lectura tienen
coordenadas, solo conserve el par con la calidad de mapeo más alta. En el par-
modo final, este comando LA ÚNICA funciona con orientación FR y requiere que ISIZE sea
configurado correctamente. No funciona para lecturas no emparejadas (por ejemplo, dos extremos asignados a
diferentes cromosomas o lecturas huérfanas).

OPCIONES:

-s Quite el duplicado para lecturas de un solo extremo. De forma predeterminada, el comando funciona para
solo lecturas de extremo emparejado.

-S Trate las lecturas de dos extremos y las lecturas de un solo extremo.

calmado samtools calmd [-EeubSr] [-C capQcoef]

Genere la etiqueta MD. Si la etiqueta MD ya está presente, este comando dará una
advertencia si la etiqueta MD generada es diferente de la etiqueta existente. Salida SAM
por defecto

OPCIONES:

-A Cuando se usa junto con -r esta opción sobrescribe la base original
calidad.

-e Convierta a la base de lectura a = si es idéntica a la referencia alineada
base. El llamador de Indel no admite las bases = en este momento.

-u Salida BAM sin comprimir

-b Salida BAM comprimida

-S La entrada es SAM con líneas de encabezado

-C INT Coeficiente para limitar la calidad del mapeo de lecturas mal mapeadas. Ver el
amontonar comando para más detalles. [0]

-r Calcule la etiqueta BQ (sin -A) o la calidad base de la tapa por BAQ (con -A).

-E Cálculo ampliado de BAQ. Esta opción cambia la especificidad por
sensibilidad, aunque el efecto es menor.

corte de objetivo samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
árbitro]

Este comando identifica las regiones de destino examinando la continuidad de la lectura
profundidad, calcula secuencias de consenso haploides de objetivos y genera un SAM con
cada secuencia correspondiente a un objetivo. Cuando la opción -f está en uso, BAQ será
aplicado. Este comando es , solamente diseñado para cortar clones de fosmid de fosmid
secuenciación de la piscina [Ref. Kitzman y col. (2010)].

fase fase samtools [-AF] [-k len] [-b prefijo] [-q minLOD] [-Q minBaseQ]

Llame y modifique la fase de SNP heterocigotos. OPCIONES:

-A Drop lee con fase ambigua.

-b STR Prefijo de salida BAM. Cuando esta opción está en uso, las lecturas de la fase 0 serán
guardado en archivo STR.0.bam y las lecturas de fase 1 en STR.1.bam. Fase desconocida
las lecturas se asignarán aleatoriamente a uno de los dos archivos. Lecturas quiméricas
con errores de cambio se guardarán en STR.quimérico.bam. [nulo]

-F No intente corregir lecturas quiméricas.

-k INT Longitud máxima para la fase local. [13]

-q INT LOD mínimo en escala Phred para llamar a un heterocigoto. [40]

-Q INT Calidad de base mínima para ser utilizada en het call. [13]

BCFTOOLS COMANDOS Y CAMPUS


view herramientas bcf view [-AbFGNQSucgv] [-D seqDict] [-l listaLoci] [-s listaMuestra] [-i
brechaSNRatio] [-t tasamutativa] [-p varTres] [-m varTres] [-P antes] [-1 nGrupo1]
[-d minFrac] [-U nPerm] [-X permanenteTres] [-T tríoTipo] en.bcf [región]

Convierta entre BCF y VCF, llame a candidatos variantes y calcule el alelo
frecuencias.

Entrada / Salida Opciones:

-A Conserve todos los posibles alelos alternativos en los sitios variantes. Por defecto,
el comando de vista descarta alelos poco probables.

-b Salida en formato BCF. El valor predeterminado es VCF.

-D ARCHIVO Diccionario de secuencia (lista de nombres de cromosomas) para conversión VCF-> BCF
[nulo]

-F Indique que PL es generado por r921 o antes (el pedido es diferente).

-G Suprime toda la información del genotipo individual.

-l ARCHIVO Lista de sitios en los que se genera información [todos los sitios]

-N Omitir sitios donde el campo REF no es A / C / G / T

-Q Genere el formato de verosimilitud QCALL

-s ARCHIVO Lista de muestras a utilizar. La primera columna de la entrada da la muestra
nombres y el segundo da la ploidía, que solo puede ser 1 o 2. Cuando
la segunda columna está ausente, se supone que la ploidía de la muestra es 2. En el
salida, el orden de las muestras será idéntico al de ARCHIVO.
[nulo]

-S La entrada es VCF en lugar de BCF.

-u Salida BCF sin comprimir (force -b).

Consenso / Variante llamar Opciones:

-c Llame a variantes mediante inferencia bayesiana. Esta opción automáticamente
invoca la opción -e.

-d FLOAT Cuándo -v está en uso, omita los lugares donde la fracción de muestras cubierta por
lee está por debajo de FLOAT. [0]

-e Realice únicamente inferencias de máxima verosimilitud, incluida la estimación del sitio
frecuencia de alelos, pruebas de equlibrium de Hardy-Weinberg y pruebas
asociaciones con LRT.

-g Llamar genotipos por muestra en sitios variantes (fuerza -c)

-i FLOAT Relación de la tasa de mutación INDEL a SNP [0.15]

-m FLOAT Nuevo modelo para llamadas multialélicas y variantes raras mejoradas. Otro
El alelo ALT se acepta si P (chi ^ 2) de LRT excede el umbral FLOAT.
El parámetro parece robusto y el valor real generalmente no lo es.
afectar mucho los resultados; un buen valor de uso es 0.99. Este es el
método de llamada recomendado. [0]

-p FLOAT Un sitio se considera una variante si P (ref | D)

-P STR Espectro de frecuencias del alelo inicial o anterior. Si STR puede ser ser completados, condición2,
plano o el archivo que consiste en la salida de error de una variante anterior
llamar a correr.

-t FLOAT Tasa de silenciamiento escalada para llamadas de variantes [0.001]

-T STR Habilite la llamada de par / trío. Para llamadas en trío, opción -s es generalmente
necesitaba ser aplicado para configurar los miembros del trío y su orden.
En el archivo proporcionado a la opción -s, la primera muestra debe ser la
el niño, el segundo el padre y el tercero la madre. El valido
valores de STR son `par ',` trioauto', `trioxd 'y` trioxs', donde
'par' llama a las diferencias entre dos muestras de entrada, y 'trioxd'
('trioxs') especifica que la entrada es del cromosoma X no PAR
regiones y el niño es una mujer (hombre). [nulo]

-v Solo sitios con variantes de salida (forzar -c)

Comparación llamar y Asociación Probar Opciones:

-1 INT Número de muestras del grupo 1. Esta opción se utiliza para dividir el
muestras en dos grupos para el contraste de llamada de SNP o prueba de asociación.
Cuando esta opción está en uso, se generará la siguiente INFO VCF:
PC2, PCHI2 y QCHI2. [0]

-U INT Número de permutaciones para la prueba de asociación (efectivo solo con -1)
[ 0 ]

-X FLOAT Realice solo permutaciones para P (chi ^ 2) -U)
[ 0.01 ]

índice herramientas bcf índice en.bcf

Índice BCF ordenado para acceso aleatorio.

gato herramientas bcf gato pulg1.bcf [pulg2.bcf [...]]]

Concatenar archivos BCF. Los archivos de entrada deben estar ordenados y tener
muestras idénticas que aparecen en el mismo orden.

SAM FORMATO


El formato de alineación / mapa de secuencia (SAM) está delimitado por TAB. Aparte de las líneas de encabezado, que
comienzan con el símbolo '@', cada línea de alineación consta de:

┌────┬───────┬──────────────────────────────────── ──────────────────────┐
ColumnaCampoDescripción
├────┼───────┼───────────────────────────────────── ──────────────────────┤
│ 1 │ QNAME │ Plantilla de consulta / par NAME │
│ 2 │ BANDERA │ BANDERA bit a bit │
│ 3 │ RNAME │ Secuencia de referencia NAME │
│ 4 │ POS │ Posición / coordenada extrema izquierda basada en 1 de la secuencia recortada │
│ 5 │ MAPQ │ Calidad de MAPping (escala Phred) │
│ 6 │ CIAGR │ cadena CIGAR extendida │
│ 7 │ MRNM │ Secuencia de referencia de relación de posición NaMe (`= 'si es igual que RNAME) │
│ 8 │ MPOS │ Posición de Mate basada en 1 │
│ 9 │ TLEN │ LONGITUD de plantilla inferida (tamaño de inserción) │
│10 │ SEQ │ consulta SEQuence en la misma cadena que la referencia │
│11 │ CALIDAD │ CALIDAD de consulta (ASCII-33 da la calidad base Phred) │
│12 + │ OPT │ campos OPCIONALES variables en el formato TAG: VTYPE: VALUE │
└────┴───────┴──────────────────────────────────── ──────────────────────┘

Cada bit del campo BANDERA se define como:

┌───────┬─────┬──────────────────────────────────── ───────────────┐
DestacarChrDescripción
├───────┼─────┼──────────────────────────────────── ───────────────┤
│0x0001 │ p │ la lectura está emparejada en secuencia │
│0x0002 │ P │ la lectura está mapeada en un par adecuado │
│0x0004 │ u │ la secuencia de consulta en sí no está mapeada │
│0x0008 │ U │ el compañero no está mapeado │
│0x0010 │ r │ hebra de la consulta (1 para reverso) │
│0x0020 │ R │ hebra del mate │
│0x0040 │ 1 │ la lectura es la primera lectura de un par │
│0x0080 │ 2 │ la lectura es la segunda lectura de un par │
│0x0100 │ s │ la alineación no es primaria │
│0x0200 │ f │ la lectura falla en los controles de calidad de la plataforma / proveedor │
│0x0400 │ d │ la lectura es un PCR o un duplicado óptico │
└───────┴─────┴──────────────────────────────────── ───────────────┘
donde la segunda columna da la representación de cadena del campo BANDERA.

VCF FORMATO


El formato de llamada variante (VCF) es un formato delimitado por TAB en el que cada línea de datos consta de
los siguientes campos:

┌────┬────────┬──────────────────────────────────── ───────────────────────────┐
ColumnaCampoDescripción
├────┼────────┼──────────────────────────────────── ───────────────────────────┤
│ 1 │ CROMO │ Nombre del cromosoma │
│ 2 │ POS │ la posición más a la izquierda de la variante │
│ 3 │ ID │ ID de variante único │
│ 4 │ REF │ el alelo REFerence │
│ 5 │ ALT │ los alelos ALTERNATIVOS, separados por coma │
│ 6 │ CALIDAD │ variante / referencia CALIDAD │
│ 7 │ FILTRO │ Filtros aplicados │
│ 8 │ INFO │ INFOrmación relacionada con la variante, separada por punto y coma │
│ 9 │ FORMAT │ FORMAT de los campos de genotipo, separados por dos puntos (opcional) │
│10 + │ MUESTRA │ MUESTRA genotipos e información por muestra (opcional) │
└────┴────────┴──────────────────────────────────── ───────────────────────────┘

La siguiente tabla da la INFO etiquetas utilizadas por samtools y bcftools.

┌──────┬───────────┬─────────────────────────────── ────────────────────────────────────────────────── ────────────────────┐
EtiquetaFormatoDescripción
├──────┼───────────┼────────────────────────────── ────────────────────────────────────────────────── ────────────────────┤
└──────┴───────────┴────────────────────────────── ────────────────────────────────────────────────── ────────────────────┘

EJEMPLOS


o Importar SAM a BAM cuando @SQ las líneas están presentes en el encabezado:

samtools view -bS aln.sam> aln.bam

If @SQ las líneas están ausentes:

samtools faidx ref.fa
samtools view -bt ref.fa.fai aln.sam> aln.bam

donde ref.fa.fai es generado automáticamente por el faidx mando.

o Adjuntar el RG etiqueta al fusionar alineaciones ordenadas:

perl -e 'imprimir
"@RG \ tID: ga \ tSM: hs \ tLB: ga \ tPL: Illumina \ n @ RG \ tID: 454 \ tSM: hs \ tLB: 454 \ tPL: 454 \ n" '> rg.txt
samtools fusionar -rh rg.txt fusionado.bam ga.bam 454.bam

El valor en un RG La etiqueta está determinada por el nombre de archivo del que proviene la lectura. En esto
ejemplo, en el combinado.bam, lee de ga.bam será adjunto RG: Z: ga, mientras lee de
454.bam será adjunto RG: Z: 454.

o Llame a SNP e INDEL cortos para un individuo diploide:

samtools mpileup -ugf ref.fa aln.bam | bcftools view -bvcg -> var.raw.bcf
bcftools view var.raw.bcf | vcfutils.pl varFilter -D 100> var.flt.vcf

El -D La opción de varFilter controla la profundidad máxima de lectura, que debe ajustarse a
aproximadamente el doble de la profundidad de lectura promedio. Uno puede considerar agregar -C50 a compilar si mapeo
la calidad se sobreestima para las lecturas que contienen excesivas discrepancias. Aplicando esta opción
generalmente ayuda BWA corto pero puede que no otros mapeadores.

o Genere la secuencia de consenso para un individuo diploide:

samtools mpileup -uf ref.fa aln.bam | bcftools view -cg - | vcfutils.pl vcf2fq>
cns.fq

o Llamar mutaciones somáticas de un par de muestras:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -> var.bcf

En el campo INFO de salida, CLR da la relación Phred-log entre la probabilidad por
tratar las dos muestras de forma independiente, y la probabilidad de requerir que el genotipo
ser idéntico. Esta CLR es efectivamente una puntuación que mide la confianza de los somáticos
llamadas. Cuanto más alto, mejor.

o Llamar mutaciones somáticas y de novo de un trío familiar:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT par -s samples.txt ->
var.bcf

Archive muestras.txt debe constar de tres líneas que especifiquen el miembro y el orden de
muestras (en el orden de niño-padre-madre). Similar, CLR da el Phred-log
razón de verosimilitud con y sin la restricción de trío. CGU muestra lo más probable
configuración del genotipo sin la restricción del trío, y CGT da lo más probable
configuración del genotipo que satisface la restricción del trío.

o Fase uno individual:

samtools calmd -AEur aln.bam ref.fa | samtools fase -b prefijo -> fase.out

El calmado El comando se usa para reducir falsos heterocigotos alrededor de INDEL.

o Llame a SNP e indeles cortos para múltiples individuos diploides:

samtools mpileup -P ILLUMINA -ugf ref.fa * .bam | bcftools view -bcvg -> var.raw.bcf
bcftools view var.raw.bcf | vcfutils.pl varFilter -D 2000> var.flt.vcf

Los individuos se identifican a partir de SM etiquetas en el @RG líneas de encabezado. Los individuos pueden ser
agrupados en un archivo de alineación; una persona también se puede dividir en varios archivos.
El -P La opción especifica que los candidatos a indel deben recopilarse solo de los grupos de lectura
con el @ RG-PL etiqueta establecida en ILUMINA. Recopilación de candidatos a indel de lecturas secuenciadas
por una tecnología propensa a indel puede afectar el rendimiento de la llamada indel.

Tenga en cuenta que hay un nuevo modelo de llamada que puede ser invocado por

Vista de bcftools -m0.99 ...

que corrige algunas limitaciones graves del método predeterminado.

Para el filtrado, los mejores resultados parecen obtenerse aplicando primero el SnpGap filtrar y
luego aplicando algún enfoque de aprendizaje automático

vcf-anotar -f SnpGap = n
filtro vcf ...

Ambos se pueden encontrar en el herramientasvcf y htslib paquete (enlaces a continuación).

o Derivar el espectro de frecuencia de alelos (AFS) en una lista de sitios de varios individuos:

samtools mpileup -Igf ref.fa * .bam> all.bcf
bcftools view -bl sites.list all.bcf> sites.bcf
bcftools view -cGP cond2 sites.bcf> / dev / null 2> sites.1.afs
bcftools view -cGP sites.1.afs sites.bcf> / dev / null 2> sites.2.afs
bcftools view -cGP sites.2.afs sites.bcf> / dev / null 2> sites.3.afs
......

donde sitios.lista contiene la lista de sitios con cada línea que consta de la referencia
nombre de secuencia y posición. El seguimiento herramientas bcf los comandos estiman AFS por EM.

o Dump BAQ aplicado alineación para otros llamadores SNP:

samtools calmd -bAr aln.bam> aln.baq.bam

Agrega y corrige el NM y MD etiquetas al mismo tiempo. los calmado el comando también viene
con el -C opción, la misma que la de amontonar y compilar. Aplicar si ayuda.

LIMITACIONES


o Palabras no alineadas utilizadas en bam_import.c, bam_endian.h, bam.cy bam_aux.c.

o Samtools paired-end rmdup no funciona para lecturas no emparejadas (por ejemplo, lecturas huérfanas o termina
mapeado a diferentes cromosomas). Si esto le preocupa, utilice Picard's
MarkDuplicate que maneja correctamente estos casos, aunque un poco más lento.

Use bcftools en línea usando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

  • 1
    Firebird
    Firebird
    Firebird RDBMS ofrece funciones ANSI SQL
    y se ejecuta en Linux, Windows y
    varias plataformas Unix. Características
    excelente concurrencia y rendimiento
    & energía...
    Descargar pájaro de fuego
  • 2
    KompoZer
    KompoZer
    KompoZer es un editor HTML wysiwyg que utiliza
    el código base de Mozilla Composer. Como
    El desarrollo de Nvu se ha detenido.
    en 2005, KompoZer corrige muchos errores y
    agrega una f...
    Descargar KompoZer
  • 3
    Descargador gratuito de manga
    Descargador gratuito de manga
    Free Manga Downloader (FMD) es un
    aplicación de código abierto escrita en
    Object-Pascal para gestionar y
    descargar manga de varios sitios web.
    esto es un espejo...
    Descargar descargador de manga gratuito
  • 4
    UNetbootin
    UNetbootin
    UNetbootin le permite crear booteables
    Unidades USB en vivo para Ubuntu, Fedora y
    otras distribuciones de Linux sin
    quemando un CD. Se ejecuta en Windows, Linux,
    y ...
    Descargar UNetbootin
  • 5
    Dolibarr ERP-CRM
    Dolibarr ERP-CRM
    Dolibarr ERP - CRM es un fácil de usar
    Paquete de software de código abierto ERP y CRM
    (ejecutar con un servidor web php o como
    software independiente) para empresas,
    cimientos...
    Descargar Dolibarr ERP - CRM
  • 6
    Cliente SQL SQuirreL
    Cliente SQL SQuirreL
    SQuirreL SQL Client es un SQL gráfico
    cliente escrito en Java que permitirá
    para ver la estructura de un JDBC
    base de datos compatible, busque los datos en
    mesas...
    Descargar cliente SQL SQuirreL
  • Más "

Comandos de Linux

Ad