hmmscan: en línea en la nube

Este es el comando hmmscan que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


hmmscan: búsqueda de secuencias de proteínas en una base de datos de perfiles de proteínas

SINOPSIS


hmm escanear [opciones]

DESCRIPCIÓN


hmm escanear se utiliza para buscar secuencias de proteínas frente a colecciones de perfiles de proteínas. Para
cada secuencia en , use esa secuencia de consulta para buscar en la base de datos de destino de
perfiles en y generar listas clasificadas de los perfiles con las
coincide con la secuencia.

El puede contener más de una secuencia de consulta. Puede estar en formato FASTA, o
varios otros formatos de archivo de secuencia común (genbank, embl y uniprot, entre otros), o
en formatos de archivo de alineación (stockholm, alineado fasta y otros). Ver el --qformato opción
para una lista completa.

El necesita ser presionado usando hmm prensa antes de que se pueda buscar con hmm escanear.
Esto crea cuatro archivos binarios, con el sufijo .h3 {fimp}.

La consulta puede ser '-' (un carácter de guión), en cuyo caso las secuencias de consulta son
leer de un pipe en lugar de desde un archivo. los no se puede leer de un
stream, porque necesita tener esos cuatro archivos binarios auxiliares generados por
hmm prensa.

El formato de salida está diseñado para ser legible por humanos, pero a menudo es tan voluminoso que
leerlo no es práctico y analizarlo es un fastidio. los --tblout y --domtblout opciones
guarde la salida en formatos tabulares simples que son concisos y más fáciles de analizar. los -o opción
permite redirigir la salida principal, incluso desecharla en / dev / null.

OPCIONES


-h Ayudar; imprima un breve recordatorio del uso de la línea de comandos y todas las opciones disponibles.

OPCIONES PARA CONTROLADOR SALIDA


-o Dirija la salida principal legible por humanos a un archivo en lugar de la salida estándar predeterminada.

--tblout
Guarde un archivo tabular simple (delimitado por espacios) que resuma la salida por destino,
con una línea de datos por modelo de objetivo homólogo encontrado.

--domtblout
Guarde un archivo tabular simple (delimitado por espacios) que resuma la salida por dominio,
con una línea de datos por dominio homólogo detectado en una secuencia de consulta para cada
modelo homólogo.

--pfamtblout
Guarde un archivo tabular especialmente conciso (delimitado por espacios) que resuma el
salida de destino, con una línea de datos por modelo de destino homólogo encontrado.

--cuenta Utilice accesiones en lugar de nombres en la salida principal, cuando estén disponibles para los perfiles.
y / o secuencias.

--noali
Omita la sección de alineación de la salida principal. Esto puede reducir en gran medida la salida
volumen.

--notexto
Ilimite la longitud de cada línea en la salida principal. El valor predeterminado es un límite de 120
caracteres por línea, lo que ayuda a mostrar la salida de forma limpia en los terminales y
en los editores, pero puede truncar las líneas de descripción del perfil de destino.

--texto
Establezca el límite de longitud de línea de la salida principal en caracteres por línea. El valor predeterminado es
120.

OPCIONES PARA PRESENTACIÓN DE INFORMES UMBRALES


Los umbrales de informe controlan qué hits se informan en los archivos de salida (la salida principal,
--tblout y --domtblout).

-E En la salida por objetivo, informe los perfiles de destino con un valor E de <= .
el valor predeterminado es 10.0, lo que significa que, en promedio, se informarán aproximadamente 10 falsos positivos
por consulta, para que pueda ver la parte superior del ruido y decidir por sí mismo si es
realmente ruido.

-T En lugar de establecer un umbral de la salida por perfil en el valor E, informe el objetivo
perfiles con un poco de puntuación de> = .

--Hazme
En la salida por dominio, para los perfiles de destino que ya han satisfecho el
umbral de informe de perfil, informe de dominios individuales con un valor E condicional
de <= . El valor predeterminado es 10.0. Un valor E condicional significa el número esperado
de dominios de falsos positivos adicionales en el espacio de búsqueda más pequeño de aquellos
comparaciones que ya cumplieron el umbral de informes por perfil (y por lo tanto
debe tener al menos un dominio homólogo ya).

--domT
En lugar de establecer un umbral de la salida por dominio en el valor E, informe los dominios con un
puntuación de bits de> = .

OPCIONES PARA INCLUSIÓN UMBRALES


Los umbrales de inclusión son más estrictos que los umbrales de notificación. Control de umbrales de inclusión
qué hits se consideran lo suficientemente fiables para ser incluidos en una alineación de salida o un
ronda de búsqueda posterior. En hmm escanear, que no tiene ninguna salida de alineación (como
hmmbúsqueda or phmmer) ni pasos de búsqueda iterativos (como jackhmmer), umbrales de inclusión
tienen poco efecto. Solo afectan a los dominios que se marcan como significativos (!) O
cuestionable (?) en la salida del dominio.

--incE
Utilice un valor E de <= como el umbral de inclusión por objetivo. El valor predeterminado es
0.01, lo que significa que, en promedio, se esperaría aproximadamente 1 falso positivo en cada
100 búsquedas con diferentes secuencias de consulta.

--incT
En lugar de utilizar valores E para establecer el umbral de inclusión, utilice un bit
puntuación de> = como el umbral de inclusión por objetivo. Sería inusual usar
umbrales de puntuación de bits con hmm escanear, porque no esperas ni una sola puntuación
umbral para trabajar para diferentes perfiles; diferentes perfiles tienen ligeramente
diferentes distribuciones de puntuación esperadas.

--incdomE
Utilice un valor E condicional de <= como el umbral de inclusión por dominio, en
objetivos que ya han cumplido el umbral de inclusión general por objetivo.
El valor predeterminado es 0.01.

--incdomT
En lugar de utilizar valores E, utilice una puntuación de bits de> = como por dominio
umbral de inclusión. Al igual que con --incT arriba, sería inusual usar un solo bit
umbral de puntuación en hmm escanear.

OPCIONES PARA MODELO ESPECÍFICO SCORE UMBRAL


Las bases de datos de perfiles seleccionados pueden definir umbrales de puntuación de bits específicos para cada perfil,
reemplazando cualquier umbral basado únicamente en la significación estadística.

Para utilizar estas opciones, el perfil debe contener el correspondiente (GA, TC y / o NC)
anotación de umbral de puntuación opcional; esto es recogido por hmmconstruir desde el formato de Estocolmo
archivos de alineación. Cada opción de umbral tiene dos puntuaciones: el umbral por secuencia
y el umbral por dominio Estos actúan como si -T --incT --domT
--incdomT se ha aplicado específicamente utilizando los umbrales seleccionados de cada modelo.

--cut_ga
Utilice las puntuaciones de bits GA (recopilación) en el modelo para establecer por secuencia (GA1) y por
informes de dominio (GA2) y umbrales de inclusión. Los umbrales de GA son generalmente
considerados los umbrales curados fiables que definen la pertenencia a la familia; por
Por ejemplo, en Pfam, estos umbrales definen lo que se incluye en Pfam Full
alineaciones basadas en búsquedas con modelos Pfam Seed.

--cut_nc
Utilice los umbrales de puntuación de bits NC (corte de ruido) en el modelo para establecer por secuencia
(NC1) y umbrales de inclusión e informes por dominio (NC2). Los umbrales NC son
generalmente se considera la puntuación del falso positivo conocido con la puntuación más alta.

--cut_tc
Utilice los umbrales de puntuación de bits NC (límite de confianza) en el modelo para establecer por secuencia
(TC1) y umbrales de inclusión e informes por dominio (TC2). Los umbrales de TC son
generalmente considerado como el puntaje de la puntuación más baja conocida como verdadero positivo que
es sobre todo falsos positivos conocidos.

CONTROL OF EL ACELERACIÓN TUBERÍA


Las búsquedas de HMMER3 se aceleran en una tubería de filtro de tres pasos: el filtro MSV, el
Filtro Viterbi y el filtro Forward. El primer filtro es el más rápido y el más
aproximado; el último es el algoritmo de puntuación Forward completo. También hay un filtro de sesgo
paso entre MSV y Viterbi. Objetivos que superan todos los pasos del proceso de aceleración
luego se someten a posprocesamiento: identificación de dominio y puntuación utilizando el
Algoritmo de avance / retroceso.

Cambiar los umbrales de filtro solo elimina o incluye los objetivos de la consideración; cambiando
Los umbrales de filtro no altera las puntuaciones de bits, los valores E o las alineaciones, todos los cuales son
determinado únicamente en el posprocesamiento.

--máx Apague todos los filtros, incluido el filtro de polarización, y ejecute el avance / retroceso completo
posprocesamiento en cada objetivo. Esto aumenta un poco la sensibilidad, en gran medida
costo en velocidad.

--F1
Establezca el umbral del valor P para el paso del filtro MSV. El valor predeterminado es 0.02, lo que significa
que aproximadamente el 2% de los objetivos no homólogos con la puntuación más alta se espera que aprueben
el filtro.

--F2
Establezca el umbral del valor P para el paso del filtro de Viterbi. El valor predeterminado es 0.001.

--F3
Establezca el umbral del valor P para el paso del filtro hacia adelante. El valor predeterminado es 1e-5.

--nobias
Apague el filtro de polarización. Esto aumenta un poco la sensibilidad, pero puede
alto costo en velocidad, especialmente si la consulta tiene una composición de residuos sesgada (como
una región de secuencia repetitiva, o si es una proteína de membrana con grandes regiones de
hidrofobicidad). Sin el filtro de polarización, demasiadas secuencias pueden pasar el filtro
con consultas sesgadas, lo que lleva a un rendimiento más lento de lo esperado ya que el
algoritmos de avance / retroceso computacionalmente intensivos soportan un peso anormalmente pesado
cargar.

OTROS OPCIONES


--no nulo2
Desactive las correcciones de puntuación nula2 para composición sesgada.

-Z Afirme que el número total de objetivos en sus búsquedas es , para los fines
de cálculos de valor E por secuencia, en lugar del número real de objetivos
visto.

--domZ
Afirme que el número total de objetivos en sus búsquedas es , para los fines
de cálculos de valor E condicionales por dominio, en lugar del número de objetivos
que superaron los umbrales de notificación.

--semilla
Establezca la semilla de número aleatorio en . Algunos pasos del posprocesamiento requieren Monte
Simulación de Carlo. El valor predeterminado es utilizar una semilla fija (42), por lo que los resultados son
exactamente reproducible. Cualquier otro entero positivo dará diferente (pero también
reproducibles) resultados. Una opción de 0 utiliza una semilla elegida arbitrariamente.

--qformato
Afirmar que el archivo de secuencia de consulta está en formato . Los formatos aceptados incluyen
rápido, emblema, banco de gen, ddbj, uniprot, Estocolmo, pfam, a2m y afa.

--UPC
Establezca el número de subprocesos de trabajo en paralelo en . De forma predeterminada, HMMER establece esto en
la cantidad de núcleos de CPU que detecta en su máquina, es decir, intenta maximizar
el uso de sus núcleos de procesador disponibles. Configuración mayor que el número de
los núcleos disponibles tienen poco valor, si es que lo tienen, pero es posible que desee establecerlo en algo
menos. También puede controlar este número configurando una variable de entorno,
HMMER_NCPU.

Esta opción solo está disponible si HMMER se compiló con soporte para subprocesos POSIX.
Este es el valor predeterminado, pero es posible que se haya desactivado para su sitio o máquina para
alguna razón.

--puesto
Para depurar la versión MPI master / worker: pause después del inicio, para habilitar la
desarrollador para adjuntar depuradores a los procesos maestro y trabajador en ejecución. Enviar
Señal SIGCONT para liberar la pausa. (Bajo gdb: (BGF) señal SEÑAL)

(Solo disponible si se habilitó la compatibilidad con MPI opcional en tiempo de compilación).

--mpi Ejecutar en modo maestro / trabajador MPI, usando mpirún.

(Solo disponible si se habilitó la compatibilidad con MPI opcional en tiempo de compilación).

Utilice hmmscan en línea utilizando los servicios de onworks.net



Últimos programas en línea de Linux y Windows