InglêsFrancêsEspanhol

Ad


favicon do OnWorks

cmalign - Online na nuvem

Execute o cmalign no provedor de hospedagem gratuita OnWorks no Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

Este é o comando cmalign que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador Windows online ou emulador MAC OS online

PROGRAMA:

NOME


cmalign - alinhar sequências a um modelo de covariância

SINOPSE


cmalinhar
[opções]

DESCRIÇÃO


cmalinhar alinha as sequências de RNA em para o modelo de covariância (CM) em .
O novo alinhamento é enviado para stdout no formato de Estocolmo, mas pode ser redirecionado para um arquivo
com o -o opção.

Ambas or (mas não ambos) pode ser '-' (traço), o que significa ler isto
entrada de stdin em vez de um arquivo.

O arquivo de sequência deve estar no formato FASTA ou Genbank.

cmalinhar usa uma técnica de bandas HMM para acelerar o alinhamento por padrão, conforme descrito
abaixo para o --hbanded opção. A banda HMM pode ser desligada com o - sem faixas opção.

Por padrão, o cmalinhar calcula o alinhamento com a máxima precisão esperada que é
consistente com as restrições (bandas) derivadas de um HMM, usando uma versão em banda do
Algoritmo de precisão ideal de Durbin / Holmes. Este comportamento pode ser alterado com o --cyk or
--amostra opções.

cmalinhar toma cuidado especial para alinhar corretamente as sequências truncadas, onde alguns nucleotídeos
desde o início (5 ') e / ou final (3') da sequência biológica de comprimento total real são
não presente na sequência de entrada (ver DL Kolbe e SR Eddy, Bioinformatics, 25: 1236-1243,
2009). Este comportamento está ativado por padrão, mas pode ser desativado com --notrunc. Na anterior
versões cmalinhar que o --sub opção foi necessária para lidar adequadamente com truncado
sequências. o --sub opção ainda está disponível nesta versão, mas o novo método padrão
para lidar com sequências truncadas deve ser tão bom ou superior ao sub método em quase
todos os casos.

A --mapali opção permite a inclusão do alinhamento de treinamento fixo usado para construir o
CM do arquivo dentro do alinhamento de saída de cmalinhar.

É possível mesclar dois ou mais alinhamentos criados pelo mesmo CM usando o cavalete
MiniApp esl-alimerge (incluído no cavalete / miniapps / subdiretório do Infernal). Anterior
versões cmalinhar incluiu opções para mesclar alinhamentos, mas eles foram descontinuados em
desenvolvimento de esl-alimerge, o que é significativamente mais eficiente em termos de memória.

Por padrão, o cmalinhar irá enviar o alinhamento para stdout. O alinhamento pode ser redirecionado
para um arquivo de saída com o -o opção. Com -ó, informações sobre cada alinhamento
sequência, incluindo pontuação e limites de alinhamento do modelo serão impressos para stdout (mais
sobre isso abaixo).

O alinhamento de saída estará no formato Estocolmo por padrão. Isso pode ser alterado para Pfam,
formato alinhado FASTA (AFA), A2M, Clustal ou Phylip usando o --formato opção,
onde é o nome do formato desejado. Como um caso especial, se o alinhamento de saída
é grande (mais de 10,000 sequências ou mais de 10,000,000 de nucleotídeos no total) do que o
o formato de saída será o formato Pfam, com cada sequência aparecendo em uma única linha, para
razões de eficiência de memória. Para alinhamentos maiores do que isso, usando --fileaved forçará
formato Estocolmo intercalado, mas o usuário deve estar ciente de que isso pode exigir muito
memória. --fileaved só funcionará para alinhamentos de até 100,000 sequências ou 100,000,000
nucleotídeos totais.

Se o formato de alinhamento de saída for Stockholm ou Pfam, o alinhamento de saída será
anotado com probabilidades posteriores que estimam o nível de confiança de cada
nucleotídeo. Esta anotação aparece como linhas começando com "# = GR PP ", um por
sequência, cada uma imediatamente abaixo da sequência alinhada correspondente " "
Os caracteres nas linhas PP têm 12 valores possíveis: "0-9", "*" ou ".". Se ".", A posição
corresponde a uma lacuna na sequência. Um valor de "0" indica uma probabilidade posterior de
entre 0.0 e 0.05, "1" indica entre 0.05 e 0.15, "2" indica entre 0.15 e
0.25 e assim por diante até "9" que indica entre 0.85 e 0.95. Um valor de "*" indica um
probabilidade posterior entre 0.95 e 1.0. Probabilidades posteriores mais altas correspondem
a uma maior confiança de que o nucleotídeo alinhado pertence onde aparece no
alinhamento. Com - sem faixas, o cálculo das probabilidades posteriores considera todos
possíveis alinhamentos da sequência alvo ao CM. Sem - sem faixas (ou seja, em default
modo), o cálculo considera apenas os alinhamentos possíveis dentro das bandas HMM. Avançar,
as probabilidades posteriores dependem do modo de truncamento do alinhamento. Para
exemplo, se o alinhamento da sequência for truncado 5 ', um valor PP de "9" indica entre
0.85 e 0.95 de todos os alinhamentos truncados 5 'incluem o nucleotídeo dado no dado
posição. A anotação posterior pode ser desligada com o --sem problema opção. Se --pequena
está habilitado, a anotação posterior também deve ser desligada usando --sem problema.

A saída tabular que é impressa em stdout se o -o opção é usada inclui uma linha
por sequência e doze campos por linha: "idx": o índice da sequência na entrada
arquivo, "nome do seq": o nome da sequência; "comprimento": o comprimento da sequência; "cm de" e
"cm para": as posições inicial e final do modelo do alinhamento; "trunc": "não" se a sequência
não é truncado, "5 '" se o início da sequência truncado 5', "3 '" se o final de
a sequência é truncada, e "5 'e 3'" se o início e o fim estiverem truncados;
"bit sc": a pontuação de bits do alinhamento, "avg pp" a probabilidade posterior média de
todos os nucleotídeos alinhados no alinhamento; "banda calc", "alinhamento" e "total": o tempo
em segundos necessários para calcular bandas HMM, computar o alinhamento e completar
processamento da sequência, respectivamente; "mem (Mb)": o tamanho em Mb de todas as dinâmicas
matrizes de programação necessárias para alinhar a sequência. Esses dados tabulares podem ser salvos
arquivar com o --sarquivo opção.

OPÇÕES


-h Ajuda; imprimir um breve lembrete do uso da linha de comando e das opções disponíveis.

-o Salve o alinhamento no formato Estocolmo em um arquivo . O padrão é escrever
para a saída padrão.

-g Configure o modelo para alinhamento global do modelo de consulta ao destino
sequências. Por padrão, o modelo é configurado para alinhamento local. Local
alinhamentos podem conter grandes inserções e exclusões chamadas "extremidades locais" no
estrutura a ser penalizada de forma diferente dos indels normais. Estes são anotados como
Colunas "~" na linha RF do alinhamento de saída. o -g opção pode ser usada para
desautorizar esses fins locais. o -g opção é necessária se o --sub opção também é
usava.

OPÇÕES PARA CONTROLANDO A ALINHAMENTO ALGORITMO


--optacc
Alinhe sequências usando o algoritmo de precisão ideal de Durbin / Holmes. Isto é o
predefinição. O alinhamento de precisão ideal será restringido por bandas HMM para
aceleração a menos que - sem faixas opção está habilitada. A precisão ideal
algoritmo determina o alinhamento que maximiza as probabilidades posteriores de
os nucleotídeos alinhados dentro dele. As probabilites posteriores são determinadas usando
(possivelmente HMM banded) variantes dos algoritmos Inside e Outside.

--cyk Não use o alinhamento de precisão ideal de Durbin / Holmes para alinhar as sequências,
em vez disso, use o algoritmo CYK que determina a pontuação ideal (máximo
probabilidade) alinhamento da sequência ao modelo, dadas as bandas HMM (a menos que
- sem faixas também está habilitado).

--amostra
Faça uma amostra de um alinhamento da distribuição posterior de alinhamentos. O posterior
distribuição é determinada usando um HMM com faixas (a menos que - sem faixas) variante do
Algoritmo interno.

--semente
Semeie o gerador de números aleatórios com , um inteiro> = 0. Esta opção só pode
ser usado em combinação com --amostra. If é uma amostragem estocástica diferente de zero de
os alinhamentos serão reproduzíveis; o mesmo comando dará os mesmos resultados. Se
é 0, o gerador de números aleatórios é semeado arbitrariamente e estocástico
as amostragens podem variar de execução para execução do mesmo comando. A semente padrão é 181.

--notrunc
Desative os algoritmos de alinhamento truncado. Todas as sequências no arquivo de entrada serão
assumido como comprimento total, a menos que --sub também é usado, caso em que o programa pode
ainda lidar com sequências truncadas, mas usará uma estratégia alternativa para seus
alinhamento.

--sub Ative a construção do submodelo e o procedimento de alinhamento. Para cada sequência, um
HMM é usado primeiro para prever as colunas de consenso inicial e final do modelo, e um novo
sub CM é construído que modela apenas colunas de consenso do início ao fim. o
a sequência é então alinhada a este sub CM. O subalinhamento é um método mais antigo que o
padrão um para alinhar sequências que estão possivelmente truncadas. Por padrão, cmalinhar
usa algoritmos DP especiais para lidar com sequências truncadas que devem ser mais
mais preciso do que o submétodo na maioria dos casos. --sub ainda está incluído como uma opção
principalmente para testar esse tratamento de sequência truncada padrão. Este "sub CM"
procedimento não é o mesmo que os "sub CMs" descritos por Weinberg e Ruzzo.

OPÇÕES PARA CONTROLANDO SPEED E MEMÓRIA REQUISITOS


--hbanded
Esta opção está ativada por padrão. Acelere o alinhamento podando regiões
da matriz CM DP que são considerados insignificantes por um HMM. Primeiro, cada sequência é
pontuado com um plano CM 9 HMM derivado do CM usando o HMM para frente e para trás
algoritmos para calcular as probabilidades posteriores de que cada nucleotídeo se alinha a cada
estado do HMM. Essas probabilidades posteriores são usadas para derivar restrições
(bandas) na matriz CM DP. Finalmente, a sequência alvo é alinhada ao CM
usando a matriz DP com faixas, durante a qual as células fora das faixas são ignoradas.
Normalmente, a maior parte da matriz DP completa está fora das bandas (muitas vezes mais de 95%),
tornando esta técnica mais rápida porque menos cálculos DP são necessários e mais
memória eficiente porque apenas as células dentro das bandas precisam ser alocadas.

É importante ressaltar que a faixa HMM sacrifica a garantia de determinar o
alinhamento preciso ou ideal, que será perdido se estiver fora das faixas.
O parâmetro tau é a quantidade de massa de probabilidade considerada insignificante durante
Cálculo da banda HMM; valores mais baixos de tau geram acelerações maiores, mas também uma maior
chance de perder o alinhamento ideal. O tau padrão é 1E-7, determinado
empiricamente como uma boa troca entre sensibilidade e velocidade, embora este valor possa
ser mudado com o --tau opção. O nível de aceleração aumenta com
o comprimento e o nível de conservação da sequência primária da família. Por exemplo,
com a tau padrão de 1E-7, modelos de tRNA (baixa conservação de sequência primária com
comprimento de cerca de 75 nucleotídeos) mostram cerca de 10X de aceleração, e SSU rRNA bacteriano
modelos (alta conservação de sequência primária com comprimento de cerca de 1500 nucleotídeos)
mostrar cerca de 700X. A banda HMM pode ser desligada com o - sem faixas opção.

--tau
Defina a probabilidade de perda de cauda usada durante o cálculo da banda HMM para . Este é o
quantidade de massa de probabilidade dentro das probabilidades posteriores HMM que é
considerado insignificante. O valor padrão é 1E-7. Em geral, valores mais altos irão
resultam em maior aceleração, mas aumentam a chance de perder o ótimo
alinhamento devido às bandas HMM.

--mxsize
Defina o tamanho máximo da matriz DP total permitido para megabytes. Por padrão,
o tamanho é 1028 Mb. Deve ser grande o suficiente para a grande maioria dos alinhamentos,
no entanto, se não for cmalinhar tentará apertar iterativamente as bandas HMM
usa para restringir o alinhamento aumentando o parâmetro tau e recalculando o
bandas até que o tamanho total da matriz necessária caia abaixo megabytes ou o máximo
valor tau permitido (0.05 por padrão, mas alterável com --maxtau) é atingido. No
a cada iteração de aperto da banda, o tau é multiplicado por 2.0. O aperto da banda
estratégia pode ser desligada com o --fixedtau opção. Se o tau máximo for
alcançado e o tamanho da matriz necessária ainda excede ou se a banda HMM não é
sendo usado e o tamanho da matriz necessária excede então cmalinhar vai sair
prematuramente e relatar uma mensagem de erro de que a matriz excedeu seu máximo
tamanho permitido. Neste caso, o --mxsize pode ser usado para aumentar o limite de tamanho ou
o tau máximo pode ser aumentado com --maxtau. O limite geralmente será excedido
quando o - sem faixas opção é usada sem o --pequena opção, mas ainda pode ocorrer
quando - sem faixas não é usado. Observe que se cmalinhar está sendo executado em múltiplo
threads em uma máquina multicore, então cada thread pode ter uma matriz alocada de até
para o tamanho Mb a qualquer momento.

--fixedtau
Desligue a estratégia de aperto da banda HMM descrita na explicação do
--mxsize opção acima.

--maxtau
Defina o valor máximo permitido para tau durante o aperto da banda, descrito no
explicação de --mxsize acima, para . Por padrão, esse valor é 0.05.

- sem faixas
Desativa a banda HMM. O alinhamento retornado é garantido ser globalmente
de forma idealmente precisa (por padrão) ou a de pontuação ideal globalmente (se --cyk
está ativado). o --pequena opção é recomendada em combinação com esta opção,
porque o alinhamento padrão sem bandas HMM requer muita memória (ver
--pequena ).

--pequena
Use o algoritmo de alinhamento de divisão e conquista CYK descrito em SR Eddy, BMC
Bioinformatics 3:18, 2002. O - sem faixas opção deve ser usada em combinação com
esta opções. Além disso, é recomendado sempre que - sem faixas é usado que --pequena is
também usado porque o alinhamento CM padrão sem bandas HMM requer muitos
memória, especialmente para grandes RNAs. --pequena permite o alinhamento CM dentro de práticas
limites de memória, reduzindo a memória necessária para o alinhamento LSU rRNA, o maior
RNAs conhecidos, de 150 Gb a menos de 300 Mb. Esta opção só pode ser usada em
combinação com - sem faixas, --notrunc, e --cyk.

OPCIONAL SAÍDA ARQUIVOS


--sarquivo
Despeje a pontuação de alinhamento por sequência e as informações de tempo para o arquivo . O formato de
este arquivo é descrito acima (são os mesmos dados no mesmo formato que o tabular
saída padrão quando o -o opção é usada).

--tfile
Despejar rastreamentos de sequência tabular para cada sequência individual em um arquivo .
Principalmente útil para depuração.

--ifile
Despejar informações de inserção por sequência para o arquivo . O formato do arquivo é
descrito por "#" - linhas de comentário prefixadas incluídas no topo do arquivo . A
inserir informações é válido mesmo quando o --matchonly opção é usada.

--elfile
Despejar informações de inserção de estado EL por sequência (extremidade local) para o arquivo . O formato
do arquivo é descrito por "#" - linhas de comentário prefixadas incluídas no topo do
lima . A informação de inserção EL é válida mesmo quando o --matchonly opção
usava.

OUTROS OPÇÕES


--mapali
Lê o alinhamento do arquivo usado para construir o modelo alinha-o como um único
objeção ao MC; por exemplo, o alinhamento em é mantido fixo. Isso permite que você
alinhar sequências a um modelo com cmalinhar e vê-los no contexto de um existente
alinhamento múltiplo confiável. deve ser o arquivo de alinhamento que o CM foi construído
a partir de. O programa verifica se a soma de verificação do arquivo corresponde à do arquivo
usado para construir o CM. Uma opção semelhante a esta foi chamada --withali in
versões anteriores de cmalinhar.

--mapstr
Deve ser usado em combinação com --mapali . Propagar informações estruturais
para quaisquer pseudo-nós que existam em para o alinhamento de saída. Uma opção semelhante a
este foi chamado --comstr nas versões anteriores de cmalinhar.

--informar
Afirme que a entrada está em formato . Não execute o formato Babelfish
autodetecção. Isso aumenta um pouco a confiabilidade do programa, porque o
Babelfish pode cometer erros; particularmente recomendado para autônomo, alto
a taxa de transferência é executada do Infernal. Os formatos aceitáveis ​​são: FASTA, GENBANK e DDBJ.
não faz distinção entre maiúsculas e minúsculas.

--formato
Especifique o formato de alinhamento de saída como . Os formatos aceitáveis ​​são: Pfam, AFA,
A2M, Clustal e Phylip. AFA é fasta alinhado. Apenas alinhamento Pfam e Estocolmo
formatos incluirão anotação de estrutura de consenso e probabilidade posterior
anotação de resíduos alinhados.

--dnaout
Produza os alinhamentos como alinhamentos de sequência de DNA, em vez de RNA.

--sem problema
Não anote o alinhamento de saída com probabilidades posteriores.

--matchonly
Inclua apenas colunas correspondentes no alinhamento de saída, não inclua nenhuma inserção
em relação ao modelo de consenso. Esta opção pode ser útil ao criar grandes
alinhamentos que requerem muita memória e espaço em disco, a maioria dos quais é necessária
apenas para lidar com colunas de inserção que são lacunas na maioria das sequências.

--fileaved
Produza o alinhamento no formato Estocolmo intercalado de uma largura fixa que pode ser
mais conveniente para exame. Este era o formato de alinhamento de saída padrão de
versões anteriores de cmalinhar. Observe que cmalinhar requer mais memória quando este
opção é usada. Por esta razão, --fileaved só funcionará para alinhamentos de até
100,000 sequências ou um total de 100,000,000 nucleotídeos alinhados.

--regressar
Salve uma cópia adicional do alinhamento de saída sem informações do autor para o arquivo
.

--verbose
Saída de informações adicionais na saída de pontuação tabular (saída para stdout se -o
é usado, ou para if --sarquivo é usado). Eles são úteis principalmente para testes e
depuração.

--CPU
Especifique isso trabalhadores de CPU paralelos sejam usados. Se é definido como "0", então o
o programa será executado em modo serial, sem usar threads. Você também pode controlar
este número definindo uma variável de ambiente, INFERNAL_NCPU. Esta opção irá
só estará disponível se a máquina em que o Infernal foi construído for capaz de usar
Rosqueamento POSIX (consulte a seção Instalação do guia do usuário para mais
em formação).

--mpi Execute como um programa paralelo MPI. Esta opção só estará disponível se Infernal tiver
foi configurado e construído com o sinalizador "--enable-mpi" (veja a Instalação
seção do guia do usuário para obter mais informações).

Use cmalign online usando serviços onworks.net


Servidores e estações de trabalho gratuitos

Baixar aplicativos Windows e Linux

  • 1
    Alt-F
    Alt-F
    Alt-F fornece um código-fonte livre e aberto
    firmware alternativo para o DLINK
    DNS-320/320L/321/323/325/327L and
    DNR-322L. Alt-F tem Samba e NFS;
    suporta ext2 / 3/4 ...
    Baixar Alt-F
  • 2
    usm
    usm
    Usm é um pacote de slackware unificado
    gerenciador que lida automaticamente
    resolução de dependência. Ele unifica
    vários repositórios de pacotes, incluindo
    slackware, folgado, p...
    baixar usm
  • 3
    Chart.js
    Chart.js
    Chart.js é uma biblioteca Javascript que
    permite que designers e desenvolvedores desenhem
    todos os tipos de gráficos usando o HTML5
    elemento de tela. Chart js oferece uma ótima
    variedade ...
    Baixar Chart.js
  • 4
    iReport-Designer para JasperReports
    iReport-Designer para JasperReports
    NOTA: Suporte ao iReport/Jaspersoft Studio
    Anúncio: A partir da versão 5.5.0,
    Jaspersoft Studio será o oficial
    cliente de design para JasperReports. Eu informo
    vai...
    Baixar iReport-Designer para JasperReports
  • 5
    PostInstallerF
    PostInstallerF
    PostInstallerF irá instalar todos os
    software que o Fedora Linux e outros
    não inclui por padrão, após
    executando o Fedora pela primeira vez. Seu
    fácil para ...
    Baixar PostInstallerF
  • 6
    traço
    traço
    O projeto strace foi movido para
    https://strace.io. strace is a
    diagnóstico, depuração e instrução
    rastreador de espaço do usuário para Linux. É usado
    para monitorar um...
    Baixar strace
  • Mais "

Comandos Linux

Ad