InglêsFrancêsEspanhol

Ad


favicon do OnWorks

hmmsim - Online na nuvem

Execute hmmsim no provedor de hospedagem gratuita OnWorks no Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

Este é o comando hmmsim que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

PROGRAMA:

NOME


hmmsim - coleta distribuições de pontuação em sequências aleatórias

SINOPSE


hummsim [opções]

DESCRIÇÃO


A hummsim programa gera sequências aleatórias, pontua-as com o (s) modelo (s) em ,
e produz vários tipos de histogramas, gráficos e distribuições ajustadas para o resultado
pontuações.

hummsim não é uma parte principal do pacote HMMER. A maioria dos usuários não teria razão para
use-o. É usado para desenvolver e testar os métodos estatísticos usados ​​para determinar os valores P
e valores E em HMMER3. Por exemplo, foi usado para gerar a maioria dos resultados em um 2008
artigo sobre estatísticas de alinhamento local de H3 (PLoS Comp Bio 4: e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

Por ser um teste de pesquisa, você não deve esperar que seja tão robusto quanto outros
programas no pacote. Por exemplo, as opções podem interagir de maneiras estranhas; nós não temos
testado nem tentou antecipar todas as combinações possíveis diferentes.

A principal tarefa é ajustar uma distribuição de Gumbel de máxima verossimilhança para pontuações de Viterbi ou um
cauda exponencial de máxima verossimilhança para pontuações Forward de alta pontuação e para testar se estes
distribuições ajustadas obedecem à conjectura de que lambda ~ log_2 tanto para Viterbi Gumbel
e a cauda exponencial direta.

A saída é uma tabela de números, uma linha para cada modelo. Quatro ajustes paramétricos diferentes
aos dados de pontuação são testados: (1) a probabilidade máxima se ajusta tanto ao local (mu / tau) quanto
parâmetros de inclinação (lambda); (2) assumindo lambda = log_2, máxima verossimilhança ajustada ao
parâmetro de localização apenas; (3) mesmo, mas assumindo um lambda com correção de borda, usando corrente
procedimentos em H3 [Eddy, 2008]; e (4) usando ambos os parâmetros determinados pela corrente de H3
procedimentos. A estatística padrão simples, rápida e suja para adequação do ajuste é 'E @ 10',
o valor E calculado do décimo primeiro resultado classificado, que esperamos ser cerca de 10.

Em detalhes, as colunas da saída são:

nome Nome do modelo.

cauda Fração das pontuações mais altas usadas para ajustar a distribuição. Para Viterbi, MSV e
Pontuações híbridas, o padrão é 1.0 (uma distribuição Gumbel é ajustada a todos os
dados). Para pontuações avançadas, o padrão é 0.02 (uma cauda exponencial é ajustada para
as pontuações de 2% mais altas).

mu / tau Parâmetro de localização para o ajuste de probabilidade máxima para os dados.

lambda Parâmetro de inclinação para o ajuste de máxima verossimilhança aos dados.

E @ 10 O valor E calculado para a 10ª pontuação alta classificada ('E @ 10') usando o ML mu / tau
e lambda. Por definição, esperava-se que fosse cerca de 10, se a estimativa do valor E fosse
preciso.

mufixo Parâmetro de localização, para um ajuste de máxima verossimilhança com uma inclinação conhecida (fixa)
parâmetro lambda de log_2 (0.693).

E @ 10fix
O valor E calculado para a 10ª pontuação classificada usando mufix e o esperado
lambda = log_2 = 0.693.

mufix2 Parâmetro de localização, para um ajuste de máxima verossimilhança com um efeito de borda corrigido
lambda.

E @ 10fix2
O valor E calculado para a 10ª pontuação classificada usando mufix2 e o efeito de borda
lambda corrigido.

PMU Parâmetro de localização conforme determinado pelos procedimentos de estimativa de H3.

Plambda
Parâmetro de inclinação conforme determinado pelos procedimentos de estimativa de H3.

pE @ 10 O valor E calculado para a 10ª pontuação classificada usando pmu, plambda.

No final desta tabela, mais uma linha é impressa, começando com # e resumindo o
tempo total de CPU usado pelas simulações.

Alguns dos arquivos de saída opcionais estão no formato xmgrace xy. xmgrace é poderoso e gratuito
software de plotagem de gráficos disponível.

DIVERSOS OPÇÕES


-h Ajuda; imprimir um breve lembrete do uso da linha de comando e todas as opções disponíveis.

-a Colete estatísticas de comprimento de alinhamento de Viterbi esperadas de cada sequência simulada.
Isso só funciona com pontuações de Viterbi (o padrão; consulte --vit) Dois adicionais
campos são impressos na tabela de saída para cada modelo: o comprimento médio de Viterbi
alinhamentos e o desvio padrão.

-v (Detalhado). Imprima também as pontuações, uma pontuação por linha.

-L Defina o comprimento das sequências amostradas aleatoriamente (não homólogas) para . O
o padrão é 100.

-N Defina o número de sequências amostradas aleatoriamente para . O padrão é 1000.

--mpi Executar em modo paralelo MPI, em mpirun. É paralelizado no nível de envio
um perfil de cada vez para um processo de trabalho MPI, então a paralelização só ajuda se
você tem mais de um perfil no , e você quer ter pelo menos como
muitos perfis como processos de trabalho MPI. (Disponível apenas se o suporte MPI opcional for
habilitado em tempo de compilação.)

OPÇÕES CONTROLANDO SAÍDA


-o Salve a tabela de saída principal em um arquivo em vez de enviá-lo para stdout.

--um arquivo
Ao coletar estatísticas de alinhamento de Viterbi (o -a opção), para cada amostra
sequência, produza dois campos por linha em um arquivo : o comprimento do ótimo
alinhamento e a pontuação de bits de Viterbi. Requer que o -a opção também é usada.

--efile
Produza um gráfico de classificação vs. valor E no formato XMGRACE xy para o arquivo . O eixo x é o
classificação desta sequência, da pontuação mais alta para a mais baixa; o eixo y é o valor E
calculado para esta sequência. Os valores E são calculados usando os procedimentos padrão do H3
(ou seja, os parâmetros pmu e plambda na tabela de saída). Você espera uma partida difícil
entre a classificação e o valor E se os valores E forem estimados com precisão.

--file
Envie um arquivo de "poder de filtro" para : para cada modelo, uma linha com três campos:
nome do modelo, número de sequências que ultrapassam o limite do valor P e fração de
sequências que ultrapassam o limite do valor P. Ver --pthresh para definir o valor P
limite, cujo padrão é 0.02 (o limite do filtro MSV padrão em H3). O P-
os valores são determinados pelos procedimentos padrão do H3 (os parâmetros pmu, plambda em
a tabela de saída). Se tudo estiver bem, você espera ver a potência do filtro igual ao
configuração do valor P previsto do limite.

--pfile
Gráficos de sobrevivência cumulativos de saída (P (S> x)) para o arquivo no formato XMGRACE xy. Lá
são três gráficos: (1) a distribuição da pontuação observada; (2) a probabilidade máxima
distribuição ajustada; (3) um ajuste de probabilidade máxima para o parâmetro de localização
(mu / tau) enquanto
assumindo lambda = log_2.

--xarquivo
A saída das pontuações de bits como uma matriz binária de flutuadores de precisão dupla (8 bytes por
pontuação) para arquivar . Programas como o cavalete esl-histplot pode ler esses arquivos binários.
Isso é útil ao gerar tamanhos de amostra extremamente grandes.

OPÇÕES CONTROLANDO MODELO CONFIGURAÇÃO (MODO)


H3 usa apenas alinhamento local multihit ( --fs modo), e é aqui que acreditamos que
ajustes estatísticos. Pontuações de alinhamento local da Unihit (Smith / Waterman; --sw modo) também obedecem ao nosso
conjecturas estatísticas. Estatísticas de alinhamento glocal (multihit ou unihit) são
ainda não adequadamente compreendido nem adequadamente ajustado.

--fs Colete pontuações de alinhamento local multihit. Este é o padrão. alinhamento como
'modo de pesquisa de fragmentos'.

--sw Colete pontuações de alinhamento local não identificadas. O estado H3 J está desabilitado. alinhamento como
'Modo de pesquisa Smith / Waterman'.

--ls Colete pontuações de alinhamento glocal multihit. No alinhamento glocal (global / local), o
todo o modelo deve se alinhar, a uma subsequência do alvo. A entrada / saída local H3
as probabilidades de transição estão desabilitadas. 'ls' vem do histórico do HMMER2
terminologia para alinhamento local multihit como 'modo de pesquisa local'.

- s Colete pontuações de alinhamento glocal unihit. Tanto o estado H3 J quanto a entrada / saída local
as probabilidades de transição estão desabilitadas. 's' vem do histórico de HMMER2
terminologia para alinhamento glocal unihit.

OPÇÕES CONTROLANDO PONTUAÇÃO ALGORITMO


--vit Colete pontuações de alinhamento de máxima verossimilhança de Viterbi. Este é o padrão.

--fwd Colete pontuações de probabilidade de probabilidade de log de avanço, somadas ao conjunto de alinhamento.

--hyb Colete pontuações 'Hybrid', conforme descrito nos artigos de Yu e Hwa (por exemplo,
Bioinformatics 18: 864, 2002). Estes envolvem calcular uma matriz Forward e tomar
o valor máximo da célula. O número em si é estatisticamente um tanto desmotivado,
mas espera-se que a distribuição seja uma distribuição de valor extremo bem comportada
(Gumbel).

--msv Colete pontuações de MSV (segmento múltiplo sem lacuna de Viterbi), usando o principal de H3
heurística de aceleração.

--velozes Para qualquer uma das opções acima, use a implementação de produção otimizada do H3 (usando
Vetorização SIMD). O padrão é usar as implementações para sacrificar um pequeno
quantidade de precisão numérica. Isso pode introduzir ruído de confusão em
simulações estatísticas e ajustes, então, quando alguém fica super preocupado com
detalhes, é melhor ser capaz de fatorar essa fonte de ruído.

OPÇÕES CONTROLANDO EQUIPADO CAUDA MASSAS PARA FRENTE


Em alguns experimentos, foi útil ajustar as pontuações Forward a uma gama de caudas diferentes
massas, em vez de apenas uma. Essas opções fornecem um mecanismo para ajustar uniformemente
intervalo espaçado de diferentes massas de cauda. Para cada massa de cauda diferente, uma linha é gerada
na saída.

--tmin
Defina o limite inferior na distribuição de massa da cauda. (O padrão é 0.02 para o
massa de cauda única padrão.)

--tmax
Defina o limite superior na distribuição de massa da cauda. (O padrão é 0.02 para o
massa de cauda única padrão.)

--tpontos
Defina o número de massas da cauda para amostrar, começando em --tmin e terminando em --tmax.
(O padrão é 1, para o padrão 0.02 massa de cauda única.)

--tlinear
Faça uma amostra de uma gama de massas de cauda com espaçamento linear uniforme. O padrão é usar
espaçamento logarítmico uniforme.

OPÇÕES CONTROLANDO H3 PARÂMETRO ESTIMATIVA MÉTODOS


H3 usa três simulações de sequência aleatória curta para estimar os parâmetros de localização para
as distribuições de pontuação esperadas para pontuações MSV, pontuações Viterbi e pontuações Forward. Esses
opções permitem que essas simulações sejam modificadas.

--EmL
Define o comprimento da sequência na simulação que estima o parâmetro de localização mu para
Valores E de MSV. O padrão é 200.

--EmN
Define o número de sequências na simulação que estima o parâmetro de localização mu
para valores E de MSV. O padrão é 200.

--EvL
Define o comprimento da sequência na simulação que estima o parâmetro de localização mu para
Valores-E de Viterbi. O padrão é 200.

--EvN
Define o número de sequências na simulação que estima o parâmetro de localização mu
para valores E de Viterbi. O padrão é 200.

--EfL
Define o comprimento da sequência na simulação que estima o parâmetro de localização tau
para valores E diretos. O padrão é 100.

--EfN
Define o número de sequências na simulação que estima o parâmetro de localização
tau para valores-E avançados. O padrão é 200.

--Eft
Define a fração de massa da cauda para caber na simulação que estima a localização
parâmetro tau para avaliações Forward. O padrão é 0.04.

DEPURAÇÃO OPÇÕES


--parar
Para depurar a versão MPI master / worker: pause after start, para habilitar o
desenvolvedor para anexar depuradores aos processos mestre e de trabalho em execução. Mandar
Sinal SIGCONT para liberar a pausa. (Em gdb: (gdb) sinal PRÓXIMO CONTEÚDO) (Somente
disponível se o suporte MPI opcional foi habilitado no tempo de compilação.)

--semente
Defina a semente do número aleatório para . O padrão é 0, o que torna o número aleatório
gerador usa uma semente arbitrária, de modo que diferentes execuções de hummsim vai quase
certamente gerar uma amostra estatística diferente. Para depuração, é útil
forçar resultados reproduzíveis, fixando uma semente de número aleatório.

EXPERIMENTAL OPÇÕES


Essas opções foram usadas em uma pequena variedade de diferentes experimentos exploratórios.

--bgflat
Defina a distribuição de resíduos de fundo para uma distribuição uniforme, tanto para
fins do modelo nulo usado no cálculo de pontuações e para gerar o
sequências aleatórias. O padrão é usar uma frequência de fundo de aminoácido padrão
distribuição.

--bgcomp
Defina a distribuição de resíduos de fundo para a composição média do perfil.
Isso foi usado para explorar alguns dos efeitos da composição tendenciosa.

--x-no-lengthmodel
Desligue o modelo de comprimento de sequência alvo H3. Defina as autotransições para N, C, J
e o modelo nulo para 350/351; isso emula HMMER2. Não é uma boa ideia em
em geral. Isso foi usado para demonstrar uma das principais diferenças H2 vs. H3.

--nu
Defina o parâmetro nu para o algoritmo MSV - o número esperado de locais sem lacuna
alinhamentos por sequência alvo. O padrão é 2.0, correspondendo a um E-> J
probabilidade de transição de 0.5. Isso foi usado para testar se variando nu tem
efeito significativo no resultado (não parece, dentro do razoável). Esta opção apenas
funciona se --msv está selecionado (afeta apenas MSV), e não funcionará com --velozes
(porque as implementações otimizadas são programadas para assumir nu = 2.0).

--pthresh
Defina o limite do valor P do filtro a ser usado na geração de arquivos de potência do filtro com
--file. O padrão é 0.02 (o que seria apropriado para testar pontuações MSV,
uma vez que este é o limite do filtro MSV padrão no pipeline de aceleração do H3.)
Outras escolhas apropriadas (padrões correspondentes no pipeline de aceleração) seriam
0.001 para Viterbi e 1e-5 para Forward.

Use hmmsim online usando serviços onworks.net


Servidores e estações de trabalho gratuitos

Baixar aplicativos Windows e Linux

Comandos Linux

Ad