Angielskifrancuskihiszpański

Ad


Ulubiona usługa OnWorks

cmalign - Online w chmurze

Uruchom cmalign u dostawcy bezpłatnego hostingu OnWorks przez Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

Jest to polecenie cmalign, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu Mac OS

PROGRAM:

IMIĘ


cmalign - dopasuj sekwencje do modelu kowariancji

STRESZCZENIE


cmwyrównaj
[opcje]

OPIS


cmwyrównaj wyrównuje sekwencje RNA w do modelu kowariancji (CM) w .
Nowe wyrównanie jest wyprowadzane do stdout w formacie sztokholmskim, ale można go przekierować do pliku
z -o opcja.

Bądź or (ale nie oba) może być „-” (myślnik), co oznacza przeczytanie tego
wejście z stdin zamiast pliku.

Plik sekwencji musi być w formacie FASTA lub Genbank.

cmwyrównaj używa techniki pasm HMM, aby domyślnie przyspieszyć wyrównanie, zgodnie z opisem
poniżej dla --przesunięty opcja. Pasmowanie HMM można wyłączyć za pomocą --bez pasm opcja.

Domyślnie cmwyrównaj oblicza wyrównanie z maksymalną oczekiwaną dokładnością, czyli
zgodne z ograniczeniami (pasmami) pochodzącymi z HMM, przy użyciu pasmowanej wersji
Algorytm optymalnej dokładności Durbina/Holmesa. To zachowanie można zmienić za pomocą --cyk or
--próbka opcje.

cmwyrównaj dokłada szczególnej staranności, aby prawidłowo dopasować obcięte sekwencje, w których niektóre nukleotydy
od początku (5') i/lub końca (3') rzeczywistej pełnej długości sekwencji biologicznej są
brak w sekwencji wejściowej (patrz DL Kolbe i SR Eddy, Bioinformatics, 25:1236-1243,
2009). To zachowanie jest domyślnie włączone, ale można je wyłączyć za pomocą --notrunc. W poprzednim
wersje cmwyrównaj dotychczasowy --pod opcja była wymagana, aby odpowiednio obsłużyć obcięte
sekwencje. ten --pod opcja jest nadal dostępna w tej wersji, ale nowa domyślna metoda
do obsługi sekwencji obciętych powinna być równie dobra lub lepsza od metody podrzędnej w prawie
wszystkie przypadki.

Połączenia --mapali opcja umożliwia włączenie stałego wyrównania treningu używanego do budowania
CM z pliku w ramach wyrównania wyjściowego cmwyrównaj.

Możliwe jest połączenie dwóch lub więcej linii trasowania utworzonych przez ten sam CM za pomocą sztalugi
miniaplikacja esl-alimerge (zawarte w podkatalogu sztalugi/miniaplikacje/ Infernal). Poprzedni
wersje cmwyrównaj uwzględniono opcje scalania linii trasowania, ale zostały one przestarzałe po
rozwój esl-alimerge, co jest znacznie bardziej wydajne pod względem pamięci.

Domyślnie cmwyrównaj wyświetli wyrównanie na standardowe wyjście. Wyrównanie można przekierować
do pliku wyjściowego z -o opcja. Z -o, informacje o każdym wyrównaniu
sekwencja, w tym wyniki i granice dopasowania modelu zostaną wydrukowane na standardowe wyjście (więcej
na ten temat poniżej).

Wyrównanie wyjściowe będzie domyślnie w formacie sztokholmskim. Można to zmienić na Pfam,
wyrównany format FASTA (AFA), A2M, Clustal lub Phylip przy użyciu --outformatuj opcja,
gdzie to nazwa żądanego formatu. W szczególnym przypadku, jeśli wyrównanie wyjściowe
jest duży (więcej niż 10,000 10,000,000 sekwencji lub więcej niż XNUMX XNUMX XNUMX łącznie nukleotydów) niż
formatem wyjściowym będzie format Pfam, z każdą sekwencją pojawiającą się w jednym wierszu, dla
przyczyny wydajności pamięci. Dla linii trasowania większych niż to, użyj --opuściłem zmusi
przeplatany format sztokholmski, ale użytkownik powinien mieć świadomość, że może to wymagać dużo
pamięć. --opuściłem działa tylko dla wyrównań do 100,000 100,000,000 sekwencji lub XNUMX XNUMX XNUMX
całkowita liczba nukleotydów.

Jeśli wyjściowym formatem wyrównania jest Sztokholm lub Pfam, wyrównanie wyjściowe będzie
z adnotacjami z prawdopodobieństwami a posteriori, które szacują poziom ufności każdego wyrównania
nukleotyd. Ta adnotacja pojawia się jako linie zaczynające się od „#=GR PP", jeden na
sekwencja, każda bezpośrednio pod odpowiednią wyrównaną sekwencją ” ”.
Znaki w liniach PP mają 12 możliwych wartości: "0-9", "*" lub ".". Jeśli „.”, pozycja
odpowiada przerwie w sekwencji. Wartość „0” wskazuje na prawdopodobieństwo a posteriori
od 0.0 do 0.05, „1” oznacza od 0.05 do 0.15, „2” oznacza od 0.15 do
0.25 i tak dalej aż do „9”, co oznacza między 0.85 a 0.95. Wartość „*” oznacza a
prawdopodobieństwo a posteriori między 0.95 a 1.0. Wyższe prawdopodobieństwa a posteriori odpowiadają
do większej pewności, że wyrównany nukleotyd należy tam, gdzie pojawia się w
wyrównanie. Z --bez pasków, obliczenie prawdopodobieństw a posteriori uwzględnia wszystko
możliwe dopasowania sekwencji docelowej do CM. Z pominięciem --bez pasm (tj. domyślnie
tryb), obliczenia uwzględniają tylko możliwe wyrównania w pasmach HMM. Dalej,
prawdopodobieństwa a posteriori są uzależnione od trybu obcięcia wyrównania. Do
na przykład, jeśli dopasowanie sekwencji jest obcięte 5', wartość PP wynosząca „9” wskazuje między
0.85 i 0.95 wszystkich dopasowań skróconych 5' zawiera dany nukleotyd w danym
pozycja. Tylną adnotację można wyłączyć za pomocą --nieprawda opcja. Gdyby --mały
jest włączona, tylna adnotacja musi być również wyłączona za pomocą --nieprawda.

Wyjście tabelaryczne, które jest wypisywane na standardowe wyjście, jeśli -o używana opcja zawiera jedną linię
na sekwencję i dwanaście pól na linię: "idx": indeks sekwencji na wejściu
plik, "seq name": nazwa sekwencji; „długość”: długość sekwencji; "cm od" i
„cm do”: pozycja początkowa i końcowa linii trasowania; "trunc": "nie", jeśli sekwencja
nie jest obcinany, "5'" jeżeli początek sekwencji jest obcinany 5', "3'" jeżeli koniec
sekwencja jest obcinana, a "5'&3'", jeśli obcinany jest zarówno początek, jak i koniec;
„bit sc”: wynik bitowy wyrównania, „avg pp” średnie prawdopodobieństwo a posteriori
wszystkie przyrównane nukleotydy w przyrównaniu; „obliczenia pasma”, „wyrównanie” i „łącznie”: czas
w sekundach wymaganych do obliczenia pasm HMM, obliczenia wyrównania i zakończenia
odpowiednio przetwarzanie sekwencji; "mem (Mb)": rozmiar w Mb wszystkich dynamicznych
macierze programowania wymagane do wyrównania sekwencji. Te dane tabelaryczne można zapisać
do pliku z --plik opcja.

OPCJE


-h Pomoc; wydrukuj krótkie przypomnienie o użyciu wiersza poleceń i dostępnych opcjach.

-o Zapisz wyrównanie w formacie sztokholmskim do pliku . Domyślnie jest to napisane
na standardowe wyjście.

-g Skonfiguruj model pod kątem globalnego dopasowania modelu zapytania do celu
sekwencje. Domyślnie model jest skonfigurowany do lokalnego wyrównania. Lokalny
wyrównania mogą zawierać duże wstawienia i usunięcia zwane „lokalnymi końcami” w
struktura, która ma być ukarana inaczej niż normalne indeksy. Są one oznaczone jako
Kolumny „~” w wierszu RF wyrównania wyjścia. ten -g opcja może być użyta do
nie zezwalaj na te lokalne zakończenia. ten -g opcja jest wymagana, jeśli --pod opcja jest również
używany.

OPCJE DLA KONTROLOWANIE THE WYRÓWNANIE ALGORYTM


--optak
Wyrównaj sekwencje za pomocą algorytmu optymalnej dokładności Durbina/Holmesa. To jest
domyślny. Optymalne wyrównanie dokładności będzie ograniczone przez pasma HMM dla
przyspieszenie, chyba że --bez pasm opcja jest włączona. Optymalna dokładność
algorytm określa wyrównanie, które maksymalizuje prawdopodobieństwo a posteriori
wyrównane w nim nukleotydy. Prawdopodobieństwa a posteriori określa się za pomocą
(prawdopodobnie HMM banded) warianty algorytmów Inside i Outside.

--cyk Nie używaj dopasowania optymalnej dokładności Durbina/Holmesa do wyrównania sekwencji,
zamiast tego użyj algorytmu CYK, który określa optymalną punktację (maksimum
prawdopodobieństwo) dopasowanie sekwencji do modelu, biorąc pod uwagę pasma HMM (chyba że
--bez pasm jest również włączona).

--próbka
Wypróbuj wyrównanie z tylnego rozkładu wyrównań. Tylny
rozkład jest określany za pomocą pasma HMM (chyba że --bez pasm) wariant
Wewnętrzny algorytm.

--nasionko
Rozpocznij generator liczb losowych za pomocą , liczba całkowita >= 0. Ta opcja może tylko
być używane w połączeniu z --próbka. If jest niezerowe, stochastyczne próbkowanie
wyrównania będą odtwarzalne; to samo polecenie da te same wyniki. Gdyby
ma wartość 0, generator liczb losowych jest rozstawiony arbitralnie, a stochastyczny
próbki mogą się różnić w zależności od uruchomienia tego samego polecenia. Domyślny ziarno to 181.

--notrunc
Wyłącz obcięte algorytmy wyrównywania. Wszystkie sekwencje w pliku wejściowym będą
zakłada się, że jest pełnej długości, chyba że --pod jest również używany, w takim przypadku program może:
nadal obsługuje skrócone sekwencje, ale użyje alternatywnej strategii dla ich
wyrównanie.

--pod Włącz procedurę budowy i wyrównania podmodelu. Dla każdej sekwencji an
HMM jest po raz pierwszy używany do przewidywania kolumn konsensusu początku i końca modelu oraz nowego
sub CM jest skonstruowany tak, że tylko modeluje kolumny konsensusu od początku do końca. ten
sekwencja jest następnie dopasowywana do tego subCM. Wyrównanie podrzędne jest starszą metodą niż
domyślnie do wyrównywania sekwencji, które prawdopodobnie są skrócone. Domyślnie, cmwyrównaj
używa specjalnych algorytmów DP do obsługi obciętych sekwencji, których powinno być więcej
dokładna niż podmetoda w większości przypadków. --pod jest nadal dostępny jako opcja
głównie do testowania z tą domyślną obsługą sekwencji okrojonych. Ten „podrzędny CM”
procedura nie jest taka sama jak „podrzędne CM” opisane przez Weinberga i Ruzzo.

OPCJE DLA KONTROLOWANIE SPEED ROLNICZE PAMIĘĆ WYMAGANIA


--przesunięty
Ta opcja jest domyślnie włączona. Przyspiesz wyrównanie, przycinając regiony
macierzy CM DP, które HMM uważa za nieistotne. Po pierwsze, każda sekwencja jest
punktowana za pomocą planu CM 9 HMM pochodzącego z CM przy użyciu HMM do przodu i do tyłu
algorytmy do obliczania prawdopodobieństw a posteriori, że każdy nukleotyd jest wyrównany do każdego
stan HMM. Te prawdopodobieństwa a posteriori są wykorzystywane do wyprowadzania ograniczeń
(pasma) na macierzy CM DP. Wreszcie sekwencja docelowa jest dopasowana do CM
przy użyciu macierzy DP z pasmami, podczas której komórki spoza pasm są ignorowane.
Zwykle większość pełnej matrycy DP leży poza pasmami (często ponad 95%),
przyspieszając tę ​​technikę, ponieważ potrzeba mniej obliczeń DP, a więcej
pamięć wydajna, ponieważ tylko komórki w pasmach muszą być przydzielone.

Co ważne, banding HMM rezygnuje z gwarancji określenia optymalnego
dokładne lub optymalne wyrównanie, które zostanie pominięte, jeśli leży poza pasmami.
Parametr tau to wielkość masy prawdopodobieństwa uważana za pomijalną podczas
Obliczanie pasma HMM; niższe wartości tau dają większe przyśpieszenia, ale także większe
szansa na pominięcie optymalnego wyrównania. Domyślne tau to 1E-7, określone
empirycznie jako dobry kompromis między czułością a szybkością, chociaż ta wartość może:
zostać zmienionym za pomocą --tau opcja. Poziom przyspieszenia wzrasta wraz z
zarówno długość, jak i główny poziom zachowania sekwencji rodziny. Na przykład,
z domyślnym tau 1E-7, modele tRNA (niska konserwacja sekwencji pierwszorzędowej z
długości około 75 nukleotydów) wykazują około 10-krotne przyspieszenie, a rRNA bakteryjne SSU
modele (wysoka konserwacja sekwencji pierwszorzędowych o długości około 1500 nukleotydów)
pokaż około 700X. Pasmowanie HMM można wyłączyć za pomocą --bez pasm opcja.

--tau
Ustaw prawdopodobieństwo utraty ogona używane podczas obliczania pasma HMM na . To jest
ilość masy prawdopodobieństwa w ramach prawdopodobieństw a posteriori HMM, czyli
uważane za nieistotne. Wartość domyślna to 1E-7. Ogólnie rzecz biorąc, wyższe wartości będą
skutkują większym przyspieszeniem, ale zwiększają prawdopodobieństwo przeoczenia optymalnego
wyrównanie ze względu na pasma HMM.

--mxrozmiar
Ustaw maksymalny dopuszczalny całkowity rozmiar matrycy DP na megabajtów. Domyślnie to
rozmiar to 1028 Mb. Powinno to być wystarczająco duże dla większości linii trasowania,
jednak jeśli tak nie jest cmwyrównaj spróbuje iteracyjnie zacieśnić pasma HMM
służy do ograniczania linii trasowania przez podniesienie parametru tau i ponowne obliczenie
wstęgi, aż całkowity wymagany rozmiar matrycy spadnie poniżej megabajtów lub maksimum
dopuszczalna wartość tau (domyślnie 0.05, ale można ją zmienić za pomocą --maxtau) został osiągnięty. Na
każda iteracja napinania pasma, tau jest mnożona przez 2.0. Zaciśnięcie opaski
strategię można wyłączyć za pomocą --naprawiono opcja. Jeśli maksymalne tau wynosi
osiągnięty, a wymagany rozmiar matrycy nadal przekracza lub jeśli paskowanie HMM nie jest
jest używany, a wymagany rozmiar matrycy przekracza następnie cmwyrównaj wyjdzie
przedwcześnie i zgłoś komunikat o błędzie, że matryca przekroczyła swoje maksimum
dopuszczalny rozmiar. W tym przypadku --mxrozmiar może służyć do zwiększenia limitu rozmiaru lub
maksymalne tau można podnieść za pomocą --maxtau. Limit zostanie powszechnie przekroczony
kiedy --bez pasm opcja jest używana bez --mały opcja, ale nadal może wystąpić
jeśli chodzi o komunikację i motywację --bez pasm nie jest używany. Zauważ, że jeśli cmwyrównaj jest prowadzony w wielokrotność
wątków na maszynie wielordzeniowej, każdy wątek może mieć przydzieloną macierz up
na wymiar Mb w dowolnym momencie.

--naprawiono
Wyłącz strategię zaciskania taśmy HMM opisaną w wyjaśnieniu
--mxrozmiar opcja powyżej.

--maxtau
Ustaw maksymalną dozwoloną wartość tau podczas zaciskania taśmy, jak opisano w
Wyjaśnienie --mxrozmiar powyżej, do . Domyślnie ta wartość wynosi 0.05.

--bez pasm
Wyłącza łączenie pasm HMM. Gwarantujemy, że zwrócone wyrównanie będzie globalne
optymalnie dokładny (domyślnie) lub globalnie optymalnie punktowany (jeśli --cyk
jest włączony). ten --mały opcja jest zalecana w połączeniu z tą opcją,
ponieważ standardowe wyrównanie bez pasków HMM wymaga dużej ilości pamięci (patrz
--mały ).

--mały
Użyj algorytmu dziel i zwyciężaj CYK opisanego w SR Eddy, BMC
Bioinformatyka 3:18, 2002 --bez pasm opcja musi być używana w połączeniu z
tej opcji. Jest również zalecany zawsze, gdy --bez pasm jest używany, że --mały is
używane również dlatego, że standardowe wyrównanie CM bez pasków HMM wymaga dużo
pamięć, szczególnie w przypadku dużych RNA. --mały umożliwia wyrównanie CM w praktycznym zakresie
limity pamięci, zmniejszające pamięć wymaganą do wyrównania rRNA LSU, największe
znanych RNA, od 150 Gb do mniej niż 300 Mb. Ta opcja może być używana tylko w
połączenie z --bez pasków, --notrunc, i --cyk.

OPCJA WYDAJNOŚĆ AKTA


--plik
Zrzucaj wynik wyrównania dla sekwencji i informacje o timigu do pliku . Format
ten plik jest opisany powyżej (są to te same dane w tym samym formacie co tabelaryczne)
wyjście stdout, gdy -o jest używana opcja).

--tplik
Zrzut tabelarycznych śladów sekwencji dla każdej pojedynczej sekwencji do pliku .
Przede wszystkim przydatne do debugowania.

--plik
Zrzucaj informacje o wstawianiu sekwencji do pliku . Format pliku to
opisane przez linie komentarza z przedrostkiem "#" zawarte na górze pliku . Połączenia
wstaw informacje są ważne nawet wtedy, gdy --dopasuj tylko używana jest opcja.

--elfile
Zrzut stanu EL dla sekwencji (koniec lokalny) wstawia informacje do pliku . Format
pliku jest opisane przez wiersz komentarza z przedrostkiem „#” zawarty na górze
filet . Informacje o wstawce EL są ważne nawet wtedy, gdy --dopasuj tylko Jest opcja
używany.

INNE OPCJE


--mapali
Odczytuje wyrównanie z pliku używany do budowy modelu wyrównuje go jako pojedynczy
sprzeciw wobec CM; np. wyrównanie w jest utrzymywany na stałe. To pozwala
wyrównaj sekwencje do modelu za pomocą cmwyrównaj i przeglądać je w kontekście istniejącego
zaufane wielokrotne wyrównanie. musi być plikiem wyrównania, który został zbudowany przez CM
z. Program sprawdza, czy suma kontrolna pliku jest zgodna z sumą pliku
używany do budowy CM. Podobna opcja do tej została nazwana --withali in
poprzednie wersje cmwyrównaj.

--mapstr
Musi być używany w połączeniu z --mapali . Propaguj informacje strukturalne
dla wszelkich pseudowęzłów, które istnieją w do wyrównania wyjściowego. Podobna opcja do
ten nazywał się --z str w poprzednich wersjach cmwyrównaj.

--informuj
Potwierdź, że dane wejściowe jest w formacie . Nie uruchamiaj formatu Babelfish
autodetekcja. Zwiększa to nieco niezawodność programu, ponieważ
Babelfish może popełniać błędy; szczególnie polecany do bezobsługowych,
przepustowość Infernal. Dopuszczalne formaty to: FASTA, GENBANK i DDBJ.
nie jest rozróżniana wielkość liter.

--outformatuj
Określ wyjściowy format wyrównania jako . Akceptowane formaty to: Pfam, AFA,
A2M, Clustal i Phylip. AFA jest wyrównany szybko. Tylko wyrównanie Pfam i Sztokholm
formaty będą zawierać adnotację struktury konsensusu i prawdopodobieństwo a posteriori
adnotacja wyrównanych pozostałości.

--dnaout
Wyprowadzaj dopasowania jako dopasowania sekwencji DNA, zamiast RNA.

--nieprawda
Nie odnotowuj wyrównania wyjściowego z prawdopodobieństwami a posteriori.

--dopasuj tylko
Uwzględnij tylko kolumny dopasowania w wyrównaniu wyjściowym, nie dołączaj żadnych wstawek
w stosunku do modelu konsensusu. Ta opcja może być przydatna przy tworzeniu bardzo dużych
linie trasowania, które wymagają dużej ilości pamięci i miejsca na dysku, z których większość jest niezbędna
tylko do czynienia z kolumnami wstawiania, które są lukami w większości sekwencji.

--opuściłem
Wyprowadź linię trasowania w formacie Sztokholm z przeplotem o stałej szerokości, która może być
wygodniejsze do badania. To był domyślny wyjściowy format wyrównania
poprzednie wersje cmwyrównaj. Należy pamiętać, że cmwyrównaj wymaga więcej pamięci, gdy to
używana jest opcja. Z tego powodu, --opuściłem działa tylko dla linii trasowania do
100,000 100,000,000 sekwencji lub łącznie XNUMX XNUMX XNUMX dopasowanych nukleotydów.

--regres
Zapisz dodatkową kopię wyrównania wyjściowego bez informacji o autorze do pliku
.

--gadatliwy
Wypisz dodatkowe informacje w wynikach tabelarycznych wyników (wyjście na standardowe wyjście, jeśli -o
jest używany, lub do if --plik jest używany). Są one przydatne głównie do testowania i
debugowanie.

--procesor
Określ to należy używać równoległych pracowników procesora. Gdyby jest ustawiony na „0”, wtedy
program zostanie uruchomiony w trybie szeregowym, bez użycia wątków. Możesz także kontrolować
tę liczbę, ustawiając zmienną środowiskową, INFERNAL_NCPU. Ta opcja będzie
być dostępne tylko wtedy, gdy maszyna, na której zbudowano Infernal, jest w stanie używać
Gwintowanie POSIX (więcej informacji w sekcji Instalacja w podręczniku użytkownika)
Informacja).

--mpi Uruchom jako program równoległy MPI. Ta opcja będzie dostępna tylko wtedy, gdy Infernal ma:
został skonfigurowany i zbudowany z flagą "--enable-mpi" (patrz Instalacja
w podręczniku użytkownika, aby uzyskać więcej informacji).

Korzystaj z cmalign online za pomocą usług onworks.net


Darmowe serwery i stacje robocze

Pobierz aplikacje Windows i Linux

  • 1
    Alt+F
    Alt+F
    Alt-F zapewnia bezpłatne i otwarte oprogramowanie
    alternatywne oprogramowanie dla DLINK
    DNS-320/320L/321/323/325/327L and
    DNR-322L. Alt-F ma Sambę i NFS;
    obsługuje ext2/3/4...
    Pobierz Alt-F
  • 2
    Usm
    Usm
    Usm to zunifikowany pakiet Slackware
    menedżer, który obsługuje automatyczne
    rozwiązanie zależności. To jednoczy
    różne repozytoria pakietów, w tym
    slackware, slacky, p...
    Pobierz usm
  • 3
    Chart.js
    Chart.js
    Chart.js to biblioteka JavaScript, która
    pozwala projektantom i programistom rysować
    wszelkiego rodzaju wykresy przy użyciu HTML5
    element płótna. Chart js oferuje świetne
    tablica ...
    Pobierz Chart.js
  • 4
    iReport-Designer dla JasperReports
    iReport-Designer dla JasperReports
    UWAGA: Obsługa iReport/Jaspersoft Studio
    Ogłoszenie: Od wersji 5.5.0,
    Jaspersoft Studio będzie oficjalnym
    klient projektowy dla JasperReports. iReport
    Wola...
    Pobierz iReport-Designer dla JasperReports
  • 5
    PostInstallerF
    PostInstallerF
    PostInstallerF zainstaluje wszystkie
    oprogramowanie, które Fedora Linux i inne
    nie obejmuje domyślnie, po
    uruchamianie Fedory po raz pierwszy. Jego
    łatwe dla...
    Pobierz PostInstallerF
  • 6
    strace
    strace
    Projekt strace został przeniesiony do
    https://strace.io. strace is a
    diagnostyczne, debugujące i instruktażowe
    śledzenie przestrzeni użytkownika dla systemu Linux. To jest używane
    monitorować...
    Pobierz strace
  • więcej »

Komendy systemu Linux

Ad