Angielskifrancuskihiszpański

Ad


Ulubiona usługa OnWorks

bcftools — online w chmurze

Uruchom bcftools w darmowym dostawcy hostingu OnWorks przez Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

Jest to polecenie bcftools, które można uruchomić w darmowym dostawcy usług hostingowych OnWorks przy użyciu jednej z wielu naszych bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online MAC OS

PROGRAM:

IMIĘ


samtools — narzędzia do formatu Sequence Alignment/Map (SAM).

bcftools - Narzędzia dla formatu połączeń binarnych (BCF) i VCF

STRESZCZENIE


widok samtools -bt ref_list.txt -o aln.bam aln.sam.gz

samtools sortuj aln.bam aln.sorted

indeks samtools aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools zobacz aln.sorted.bam chr2:20,100,000-20,200,000

samtools łączą out.bam z 1.bam z 2.bam z 3.bam

samtools faidx ref.fasta

samtools pileup -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

Indeks bcftools w.bcf

widok bcftools in.bcf chr2:100-200 > out.vcf

Widok bcftools -Nvm0.99 in.bcf > out.vcf 2> out.afs

OPIS


Samtools to zestaw narzędzi, które manipulują wyrównaniami w formacie BAM. Importuje
z i eksportuje do formatu SAM (Sequence Alignment/Map), wykonuje sortowanie, łączenie i
indeksowanie i umożliwia szybkie pobieranie odczytów w dowolnych regionach.

Samtools jest przeznaczony do pracy na strumieniu. Traktuje plik wejściowy `-' jako standard
wejście (stdin) i plik wyjściowy `-' jako standardowe wyjście (stdout). Kilka poleceń może
w ten sposób można łączyć z potokami Unix. Samtools zawsze wysyła ostrzeżenia i komunikaty o błędach do
standardowe wyjście błędu (stderr).

Samtools jest również w stanie otworzyć plik BAM (nie SAM) na zdalnym serwerze FTP lub HTTP, jeśli
Nazwa pliku BAM zaczyna się od `ftp://' lub `http://'. Samtools sprawdza bieżące działanie
katalog dla pliku indeksu i pobierze indeks w przypadku nieobecności. Samtools nie
pobrać cały plik wyrównania, chyba że zostanie o to poproszony.

SAMTORZĘDZIA POLECENIA ROLNICZE OPCJE


widok widok samtools [-bchuHS] [-t in.refList] [-o wyjście] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l biblioteka] [-r grupa_odczyt] [-R plik rg] | [region1
[...]]

Wyodrębnij/wydrukuj wszystkie lub podrzędne linie trasowania w formacie SAM lub BAM. Jeśli nie ma regionu
określony, zostaną wydrukowane wszystkie wyrównania; w przeciwnym razie tylko wyrównania
zostaną wydrukowane nakładające się na określone regiony. Można podać wyrównanie
wielokrotnie, jeśli zachodzi na kilka regionów. Można przedstawić region,
na przykład w następującym formacie: `chr2' (cały chr2), `chr2:1000000'
(region zaczynający się od 1,000,000 2 1,000,000 pb) lub `chr2,000,000:XNUMX XNUMX XNUMX-XNUMX XNUMX XNUMX' (region pomiędzy
1,000,000 2,000,000 1 i XNUMX XNUMX XNUMX pz łącznie z punktami końcowymi). Współrzędna jest oparta na XNUMX.

OPCJE:

-b Wyjście w formacie BAM.

-f INT Wyprowadzaj tylko wyrównania ze wszystkimi bitami INT obecnymi w polu FLAGA.
INT może być zapisana szesnastkowo w formacie /^0x[0-9A-F]+/[0]

-F INT Pomiń wyrównania z bitami obecnymi w LCAŁK [0]

-h Dołącz nagłówek do danych wyjściowych.

-H Wydrukuj tylko nagłówek.

-l STR Tylko odczyty wyjściowe w bibliotece STR [null]

-o FILE Plik wyjściowy [stdout]

-q INT Pomiń wyrównania z MAPQ mniejszym niż INT [0]

-r STR Tylko odczyty wyjściowe w grupie odczytu STR [null]

-R FILE Odczyty danych wyjściowych w grupach odczytu wymienionych w FILE [zero]

-s FLOAT Frakcja szablonów/par do podpróbki; traktowana jest część całkowita
jako ziarno dla generatora liczb losowych [-1]

-S Wejście jest w SAM. Jeśli nie ma linii nagłówka @SQ, plik `-t' Jest opcja
wymagane.

-c Zamiast drukować wyrównania, wystarczy je policzyć i wydrukować
Łączna. Wszystkie opcje filtrów, takie jak `-f', `-F' i `-q' ma
uwzględnić.

-t FILE Ten plik jest rozdzielany tabulatorami. Każda linia musi zawierać nazwę odniesienia
oraz długość odniesienia, po jednym wierszu dla każdego odrębnego odniesienia;
dodatkowe pola są ignorowane. Ten plik definiuje również kolejność plików
sekwencje odniesienia w sortowaniu. Jeśli uruchomisz `samtools faidx ',
wynikowy plik indeksu fai może być używany jako ten
plik.

-u Wyjście nieskompresowanego BAM. Ta opcja oszczędza czas poświęcony na
kompresja/dekompresja i dlatego jest preferowana, gdy wyjście jest
przesłane do innego polecenia samtools.

telewizja samtools tvview [-p chr: poz] [-s STR] [-d pokaz] [ref.fasta]

Przeglądarka wyrównania tekstu (oparta na bibliotece ncurses). W przeglądarce naciśnij `?'
w celu uzyskania pomocy i naciśnij `g', aby sprawdzić początek wyrównania od regionu w formacie
jak `chr10:10,000,000 10,000,000 XNUMX' lub `=XNUMX XNUMX XNUMX' podczas przeglądania tej samej referencji
sekwencja.

Opcje:

-d pokaz Dane wyjściowe jako (H)tml lub (C)urses lub (T)ext

-p chr: poz Idź bezpośrednio do tej pozycji

-s STR Wyświetlaj tylko odczyty z tej próbki lub grupy odczytów

mpilup samtools mpileup [-EBugp] [-C capQcoef] [-r reg] [-f w fa] [-l podstęp] [-M
capMapQ] [-Q minBaseQ] [-q minMapaQ] w.bam [in2.bam [...]]

Generuj BCF lub pileup dla jednego lub wielu plików BAM. Zapisy wyrównania są
pogrupowane według identyfikatorów próbek w wierszach nagłówka @RG. Jeśli identyfikatory próbek są
nieobecny, każdy plik wejściowy jest traktowany jako jedna próbka.

W formacie pileup (bez -uor-g), każda linia reprezentuje pozycję genomową,
składający się z nazwy chromosomu, współrzędnych, bazy odniesienia, baz odczytu, odczytu
cechy i cechy odwzorowania wyrównania. Informacje o dopasowaniu, niezgodności,
indel, strand, jakość mapowania oraz początek i koniec odczytu są zakodowane w
kolumna podstawowa odczytu. W tej kolumnie kropka oznacza dopasowanie do referencji
podstawa na przedniej nici, przecinek dla dopasowania na odwrotnej nici, „>” lub
'<' dla pominięcia referencji, `ACGTN' dla niedopasowania w przedniej nici i
`acgtn' dla niezgodności na odwrotnej nici. Wzorzec `\+[0-9]+[ACGTNacgtn]+'
wskazuje, że pomiędzy tą pozycją referencyjną a następną następuje wstawienie
pozycja odniesienia. Długość wstawienia jest określona liczbą całkowitą w pliku
wzorzec, po którym następuje wstawiona sekwencja. Podobnie wzór
`-[0-9]+[ACGTNacgtn]+' oznacza usunięcie z odniesienia. usunięte
bazy zostaną przedstawione jako `*' w kolejnych wierszach. Także w bazie czytelniczej
kolumnie, symbol `^' oznacza początek odczytu. ASCII znaku
następujący po `^' minus 33 daje jakość odwzorowania. Symbol `$' oznacza koniec
segment odczytu.

Wkład Opcje:

-6 Załóżmy, że jakość jest w kodowaniu Illumina 1.3+. -A Nie pomijaj
anomalne pary odczytu w wywołaniu wariantowym.

-B Wyłącz korektę probabilistyczną dla obliczenia bazy
jakość wyrównania (BAQ). BAQ to prawdopodobieństwo odczytu w skali Phreda
źle ułożona podstawa. Zastosowanie tej opcji znacznie pomaga zmniejszyć
fałszywe SNP spowodowane niewspółosiowością.

-b FILE Lista wejściowych plików BAM, jeden plik w linii [null]

-C INT Współczynnik obniżania jakości mapowania dla odczytów zawierających
nadmierne niedopasowania. Biorąc pod uwagę odczyt z prawdopodobieństwem q wyskalowanym w skali phred
generowania z odwzorowanej pozycji, nowa jakość odwzorowania
chodzi o sqrt((LCAŁK-q)/INT)*INT. Wartość zero wyłącza to
funkcjonalność; jeśli włączone, zalecana wartość dla BWA to 50. [0]

-d INT Na pozycji czytaj maksymalnie INT odczytów na wejście BAM. [250]

-E Rozszerzone obliczenia BAQ. Ta opcja pomaga czułość szczególnie dla
MNP, ale może trochę zaszkodzić specyficzności.

-f FILE Połączenia Faidx-indeksowany plik referencyjny w formacie FASTA. Plik może być
opcjonalnie skompresowany przez razić. [zero]

-l FILE BED lub plik z listą pozycji zawierający listę regionów lub miejsc, w których
powinien zostać wygenerowany pileup lub BCF [null]

-q INT Minimalna jakość odwzorowania dla linii trasowania, która ma być użyta [0]

-Q INT Minimalna jakość bazy, którą należy wziąć pod uwagę [13]

-r STR Generuj pileup tylko w regionie STR [wszystkie witryny]

Wydajność Opcje:

-D Głębokość odczytu danych wyjściowych na próbkę

-g Oblicz prawdopodobieństwo genotypu i wyślij je w formacie wywołania binarnego
(BCF).

-S Wyjście na próbkę Odchylenie nici w skali Phreda Wartość P

-u Podobny do -g poza tym, że dane wyjściowe to nieskompresowany BCF, czyli
preferowany do rur.

Opcje dla Genotyp Prawdopodobieństwo Obliczenie (Na -g or -u):

-e INT Prawdopodobieństwo błędu sekwencjonowania wydłużenia przerwy w skali Phreda. Redukcja INT
prowadzi do dłuższych indeli. [20]

-h INT Współczynnik do modelowania błędów homopolimeru. Biorąc pod uwagę l-długie
przebieg homopolimeru, błąd sekwencjonowania indeksu wielkości s jest modelowany
as INT*s/l. [100]

-I Nie wykonuj połączeń INDEL

-L INT Pomiń wywołanie INDEL, jeśli średnia głębokość na próbkę jest wyższa INT.
[250]

-o INT Prawdopodobieństwo błędu otwartego sekwencjonowania w skali Phreda. Redukcja INT prowadzi
więcej połączeń indel. [40]

-p Zastosuj progi -m i -F na próbkę, aby zwiększyć czułość
powołanie. Domyślnie obie opcje są stosowane do odczytów zebranych ze wszystkich
próbki.

-P STR Rozdzielona przecinkami lista platform (określona przez @RG-PL) z którego
uzyskuje się kandydatów indel. Zaleca się zbieranie indel
kandydatów z technologii sekwencjonowania, które mają niski wskaźnik błędów indel
jak ILLUMINA. [Wszystko]

nagłówek reheader samtools

Wymień nagłówek w w.bam z nagłówkiem w w.nagłówku.sam. To polecenie to
znacznie szybciej niż zastąpienie nagłówka konwersją BAM->SAM->BAM.

jak samtools cat [-h nagłówek.sam] [-o out.bam] [ ... ]

Połącz BAMy. Słownik sekwencji każdego wejściowego BAM musi być identyczny,
chociaż to polecenie tego nie sprawdza. To polecenie wykorzystuje podobną sztuczkę do
nagłówek co umożliwia szybką konkatenację BAM.

rodzaj samtools sort [-nof] [-m maxMem]

Sortuj linie trasowania według skrajnych lewych współrzędnych. Plik bam zostanie utworzona.
To polecenie może również tworzyć pliki tymczasowe .%d.bam kiedy całość
wyrównanie nie może być dopasowane do pamięci (kontrolowane przez opcję -m).

OPCJE:

-o Wyprowadź końcowe wyrównanie na standardowe wyjście.

-n Sortuj według odczytanych nazw, a nie według współrzędnych chromosomalnych

-f Zastosowanie jako pełną ścieżkę wyjściową i nie dołączaj bam przyrostek.

-m INT W przybliżeniu maksymalna wymagana pamięć. [500000000]

łączyć samtools merge [-nur1f] [-h inh.sam] [-R reg]
[...]

Połącz wiele posortowanych linii trasowania. Lista referencyjna nagłówka wszystkich danych wejściowych
BAM i nagłówki @SQ sam, jeśli istnieją, muszą odnosić się do tego samego
zestaw sekwencji referencyjnych. Lista odwołań do nagłówka i (chyba że zostaną zastąpione przez
-h) nagłówki `@' in1.bam zostanie skopiowany do out.bami nagłówki innych
pliki będą ignorowane.

OPCJE:

-1 Użyj kompresji zlib poziom 1, aby skompresować dane wyjściowe

-f Wymuś zastąpienie pliku wyjściowego, jeśli jest obecny.

-h FILE Skorzystaj z wierszy FILE jako nagłówki `@' do skopiowania out.bam, zastępując
wszelkie wiersze nagłówka, które w przeciwnym razie zostałyby skopiowane in1.bam, (FILE is
faktycznie w formacie SAM, chociaż wszelkie rekordy wyrównania, które może zawierać, są
ignorowane.)

-n Dopasowania wejściowe są sortowane według odczytanych nazw, a nie według chromosomów
współrzędne

-R STR Scal pliki w określonym regionie wskazanym przez STR [zero]

-r Dołącz etykietę RG do każdej linii trasowania. Wartość znacznika jest wywnioskowana z pliku
nazwy.

-u Nieskompresowane wyjście BAM

wskaźnik indeks samtools

Indeksuj posortowane wyrównanie dla szybkiego dostępu losowego. Plik indeksu bai będzie
utworzony.

idxstats samtools idxstats

Pobierz i wydrukuj statystyki w pliku indeksu. Dane wyjściowe są rozdzielane tabulatorami
każda linia składa się z nazwy sekwencji referencyjnej, długości sekwencji, # odwzorowanych odczytów
i # niezmapowanych odczytów.

Faidx samtools faidx [region1 [...]]

Indeksuj sekwencję referencyjną w formacie FASTA lub wyodrębnij podsekwencję z pliku indexed
sekwencja odniesienia. Jeśli nie określono regionu, Faidx zindeksuje plik i
Stwórz fai na dysku. Jeśli określono regiony, podsekwencje
zostaną pobrane i wydrukowane na stdout w formacie FASTA. Plik wejściowy może
być skompresowany w RAZF Format.

współlokator samtools fixmate

Wypełnij współrzędne wiązania, ISIZE i flagi związane z wiązaniem z sortowania według nazwy
wyrównanie.

rmdup samtools rmdup [-sS]

Usuń potencjalne duplikaty PCR: jeśli wiele par odczytów ma identyczny zewnętrzny
współrzędnych, zachowują tylko parę o najwyższej jakości odwzorowania. W parze-
tryb zakończenia, to polecenie TYLKO działa z orientacją FR i wymaga ISIZE
prawidłowo ustawione. Nie działa w przypadku odczytów niesparowanych (np. dwa końce zmapowane do
różne chromosomy lub odczyty sieroce).

OPCJE:

-s Usuń duplikat dla pojedynczych odczytów. Domyślnie polecenie działa dla
tylko odczyty ze sparowanych końcówek.

-S Traktuj odczyty ze sparowanych końców i odczyty z jednego końca.

uspokojony samtools uspokoił [-EeubSr] [-C capQcoef]

Wygeneruj znacznik MD. Jeśli tag MD jest już obecny, to polecenie da
ostrzeżenie, jeśli wygenerowany znacznik MD różni się od istniejącego znacznika. Wyjście SAM
domyślnie.

OPCJE:

-A Używany razem z -r ta opcja nadpisuje oryginalną bazę
jakość.

-e Konwertuj podstawę odczytu na =, jeśli jest identyczna z wyrównanym odniesieniem
baza. Program wywołujący Indel nie obsługuje obecnie baz =.

-u Wyjście nieskompresowanego BAM

-b Wyjście skompresowanego BAM

-S Wejście to SAM z liniami nagłówka

-C INT Współczynnik ograniczający jakość mapowania słabo odwzorowanych odczytów. Zobacz
spiętrzyć polecenie, aby uzyskać szczegółowe informacje. [0]

-r Oblicz znacznik BQ (bez -A) lub jakość podstawy czapki za pomocą BAQ (z -A).

-E Rozszerzona kalkulacja BAQ. Ta opcja handluje specyficznością
czułość, chociaż efekt jest niewielki.

cięcie docelowe samtools targetcut [-Q minBaseQ] [-i inKara] [-0 em0] [-1 em1] [-2 em2] [-f
ref]

To polecenie identyfikuje regiony docelowe, sprawdzając ciągłość odczytu
głębokość, oblicza haploidalne sekwencje konsensusu celów i wyprowadza SAM
każda sekwencja odpowiada celowi. Kiedy opcja -f jest w użyciu, BAQ będzie
stosowany. To polecenie jest tylko przeznaczony do wycinania klonów fosmidów z fosmidów
sekwencjonowanie puli [Ref. Kitzmana i in. (2010)].

faza samtools faza [-AF] [-k len] [-b przedrostek] [-q minLOD] [-Q minBaseQ]

Zadzwoń i fazuj heterozygotyczne SNP. OPCJE:

-A Upuść odczyty z niejednoznaczną fazą.

-b STR Przedrostek wyjścia BAM. Kiedy ta opcja jest w użyciu, odczyty fazy 0 będą
zapisane w pliku STR.0.bam i faza-1 wczytuje się STR.1.bam. Faza nieznana
odczyty zostaną losowo przydzielone do jednego z dwóch plików. Chimeryczne odczyty
z błędami przełączania zostaną zapisane w STR.chimeryczny.bam. [zero]

-F Nie próbuj naprawiać odczytów chimerycznych.

-k INT Maksymalna długość dla fazowania lokalnego. [13]

-q INT Minimalny LOD w skali Phreda, aby nazwać heterozygotę. [40]

-Q INT Minimalna podstawowa jakość do wykorzystania w rozmowach telefonicznych. [13]

BCFTOOLS POLECENIA ROLNICZE OPCJE


widok bcftools widok [-AbFGNQSucgv] [-D sekw] [-l listaLoci] [-s listaPróbka] [-i
Współczynnik lukiSNP] [-t mutRate] [-p varThres] [-m varThres] [-P wcześniejszy] [-1 nGrupa1]
[-d minFrac] [-U nZgoda] [-X dot.Tres] [-T trioTyp] w.bcf [region]

Konwersja między BCF i VCF, wywołanie kandydatów na warianty i oszacowanie allelu
częstotliwości.

Wejście wyjście Opcje:

-A Zachowaj wszystkie możliwe alternatywne allele w różnych miejscach. Domyślnie,
polecenie przeglądania odrzuca mało prawdopodobne allele.

-b Wyjście w formacie BCF. Wartością domyślną jest VCF.

-D FILE Słownik sekwencji (lista nazw chromosomów) do konwersji VCF->BCF
[zero]

-F Wskaż, że PL jest generowany przez r921 lub wcześniej (kolejność jest inna).

-G Pomiń wszystkie indywidualne informacje o genotypie.

-l FILE Lista witryn, w których wyprowadzane są informacje [wszystkie witryny]

-N Pomiń witryny, w których pole REF nie ma wartości A/C/G/T

-Q Wyprowadź format wiarygodności QCALL

-s FILE Lista próbek do wykorzystania. Pierwsza kolumna danych wejściowych zawiera próbkę
nazwy, a druga podaje ploidalność, która może wynosić tylko 1 lub 2. Kiedy
2. kolumna jest nieobecna, zakłada się, że ploidalność próbki wynosi 2. W
wyjście, kolejność próbek będzie identyczna jak w FILE.
[zero]

-S Dane wejściowe to VCF zamiast BCF.

-u Nieskompresowane wyjście BCF (wymuś -b).

Konsensus/wariant powołanie Opcje:

-c Wywołaj warianty przy użyciu wnioskowania bayesowskiego. Ta opcja automatycznie
wywołuje opcję -e.

-d FLOAT Kiedy -v jest w użyciu, pomiń loci, w których ułamek próbek jest objęty
czyta jest poniżej FLOAT. [0]

-e Przeprowadzaj wyłącznie wnioskowanie o maksymalnym prawdopodobieństwie, w tym szacowanie witryny
częstość alleli, testowanie równowagi Hardy'ego-Weinberga i testowanie
skojarzenia z LRT.

-g Wywołaj genotypy na próbkę w różnych miejscach (wymuś -c)

-i FLOAT Stosunek częstości mutacji INDEL-do-SNP [0.15]

-m FLOAT Nowy model ulepszonego wywoływania multiallelicznego i rzadkich wariantów. Inny
Allel ALT jest akceptowany, jeśli P(chi^2) LRT przekracza próg FLOAT.
Parametr wydaje się solidny, a rzeczywista wartość zwykle nie
znacznie wpłynąć na wyniki; dobrą wartością do wykorzystania jest 0.99. To jest
zalecana metoda dzwonienia. [0]

-p FLOAT Witryna jest uważana za wariant, jeśli P(ref|D)

-P STR Widmo częstotliwości wcześniejszego lub początkowego allelu. Jeśli STR może być pełny, kond2,
mieszkanie lub plik składający się z wyjścia błędu z poprzedniego wariantu
wzywając bieg.

-t FLOAT Skalowany wskaźnik mutacji dla wywołań wariantowych [0.001]

-T STR Włącz połączenia w parach/trójkach. W przypadku połączeń trio, opcja -s zazwyczaj jest
trzeba było zastosować, aby skonfigurować członków trio i ich kolejność.
W pliku dostarczonym do opcji -s, pierwsza próbka musi być
dziecko, drugie ojciec, trzecie matka. ważny
wartości STR to `pary', `trioauto', `trioxd' i `trioxs', gdzie
`pair' wywołuje różnice między dwiema próbkami wejściowymi, a `trioxd'
(„trioxs”) określa, że ​​dane wejściowe pochodzą z chromosomu X innego niż PAR
regionach, a dziecko jest kobietą (mężczyzną). [zero]

-v Wygeneruj tylko warianty witryn (wymuś -c)

Kontrast powołanie i Stowarzyszenie Testowanie Opcje:

-1 INT Liczba próbek z grupy 1. Ta opcja służy do dzielenia
próbki na dwie grupy do kontrastowego wywołania SNP lub testu asocjacji.
Gdy ta opcja jest używana, wyświetlane będą następujące INFORMACJE VCF:
PC2, PCI2 i QCHI2. [0]

-U INT Liczba permutacji dla testu asocjacji (działa tylko z -1)
[0]

-X FLOAT Wykonuj permutacje tylko dla P(chi^2) -U)
[0.01]

wskaźnik bcftools wskaźnik w.bcf

Indeks posortowany BCF dla swobodnego dostępu.

jak bcftools jak w1.bcf [w2.bcf [...]]]

Połącz pliki BCF. Pliki wejściowe muszą być posortowane i mieć
identyczne próbki pojawiające się w tej samej kolejności.

SAM FORMAT


Format Sequence Alignment/Map (SAM) jest rozdzielany tabulatorami. Oprócz linii nagłówka, które
zaczynają się od symbolu `@', każda linia wyrównania składa się z:

┌────┬───────┬────────────────────────── ────────── ──────────────────────┐
KołnierzPoleOpis
├────┼───────┼────────────────────────── ────────── ──────────────────────┤
│ 1 │ QNAME │ Szablon zapytania/para NAZWA │
│ 2 │ FLAGA │ FLAGA bitowa │
│ 3 │ RNAZWA │ Sekwencja odniesienia NAZWA │
│ 4 │ POS │ oparty na 1 skrajny lewy POZYCJA/współrzędna obciętej sekwencji │
│ 5 │ MAPQ │ Jakość mapowania (w skali Phred) │
│ 6 │ CIAGR │ przedłużony ciąg CIGAR │
│ 7 │ MRNM │ Mate Sekwencja odniesienia NaMe (`=' jeśli to samo co RNAME) │
│ 8 │ MPOS │ Pozycja partnera oparta na 1 │
│ 9 │ TLEN │ wywnioskowana DŁUGOŚĆ szablonu (rozmiar wkładki) │
│10 │ SEQ │ zapytanie SEKWENCJA na tej samej nici co referencja │
│11 │ QUAL │ zapytanie QUALity (ASCII-33 daje podstawową jakość Phred) │
│12+ │ OPT │ zmienna OPCJONALNE pola w formacie TAG:VTYPE:VALUE │
└────┴───────┴────────────────────────── ────────── ──────────────────────┘

Każdy bit w polu FLAGA jest zdefiniowany jako:

┌───────┬─────┬───────────────────────── ────────── ───────────────┐
FlagaChrOpis
├───────┼─────┼───────────────────────── ────────── ───────────────┤
│0x0001 │ p │ odczyt jest sparowany w sekwencjonowaniu │
│0x0002 │ P │ odczyt jest odwzorowany w odpowiedniej parze │
│0x0004 │ u │ sama sekwencja zapytania jest niezmapowana │
│0x0008 │ U │ wiązanie nie jest odwzorowane │
│0x0010 │ r │ nić zapytania (1 dla odwrotności) │
│0x0020 │ R │ nić mata │
│0x0040 │ 1 │ odczyt jest pierwszym odczytem w parze │
│0x0080 │ 2 │ odczyt jest drugim odczytem w parze │
│0x0100 │ s │ wyrównanie nie jest podstawowe │
│0x0200 │ f │ odczyt kończy się niepowodzeniem Kontrola jakości platformy/dostawcy │
│0x0400 │ d │ odczyt to PCR lub duplikat optyczny │
└───────┴─────┴───────────────────────── ────────── ───────────────┘
gdzie druga kolumna zawiera ciąg reprezentujący pole FLAGA.

VCF FORMAT


Variant Call Format (VCF) to format rozdzielany tabulatorami, z którego składa się każda linia danych
następujące pola:

┌────┬────────┬───────────────────────── ────────── ───────────────────────────┐
KołnierzPoleOpis
├────┼────────┼───────────────────────── ────────── ───────────────────────────┤
│ 1 │ CHROM │ CHROM Nazwa │
│ 2 │ POS │ skrajna lewa POZYCJA wariantu │
│ 3 │ ID │ unikalny identyfikator wariantu │
│ 4 │ REF │ allel REFERENCYJNY │
│ 5 │ ALT │ ALTernate allel(y), oddzielone przecinkiem │
│ 6 │ JAKOŚĆ │ wariant/referencja JAKOŚĆ │
│ 7 │ FILTR │ Zastosowano filtry │
│ 8 │ INFO │ INFORMACJE dotyczące wariantu oddzielone średnikiem │
│ 9 │ FORMAT │ FORMAT pól genotypu oddzielonych dwukropkiem (opcjonalnie) │
│10+ │ PRÓBKA │ Genotypy PRÓBKI i informacje o próbce (opcjonalnie) │
└────┴────────┴───────────────────────── ────────── ───────────────────────────┘

Poniższa tabela przedstawia INFO tagi używane przez samtools i bcftools.

┌──────┬───────────┬──────────────────── ────────── ──────────────────────────────────────── ────────── ────────────────────┐
etykietautworzonyOpis
├──────┼───────────┼──────────────────── ────────── ──────────────────────────────────────── ────────── ────────────────────┤
└──────┴───────────┴──────────────────── ────────── ──────────────────────────────────────── ────────── ────────────────────┘

PRZYKŁADY


o Importuj SAM do BAM kiedy @SQ wiersze są obecne w nagłówku:

widok samtools -bS aln.sam > aln.bam

If @SQ brak linii:

samtools faidx ref.fa
widok samtools -bt ref.fa.fai aln.sam > aln.bam

gdzie ref.fa.fai jest generowany automatycznie przez Faidx dowództwo.

o Dołącz RG tag podczas scalania posortowanych linii trasowania:

perl -e 'drukuj
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools merge -rh rg.txt merged.bam ga.bam 454.bam

Wartość w a RG tag jest określany przez nazwę pliku, z którego pochodzi odczyt. W tym
przykład w scalone.bam, czytamy z ga.bam zostanie dołączony RG:Z:ga, podczas gdy odczytuje z
454.bam zostanie dołączony RG:Z:454.

o Wywołaj SNP i krótkie INDEL dla jednego diploidalnego osobnika:

samtools mpileup -ugf ref.fa aln.bam | bcftools view -bvcg - > var.raw.bcf
bcftools widok var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

Połączenia -D Opcja varFilter kontroluje maksymalną głębokość odczytu, do której należy się dostosować
około dwa razy większa niż średnia głębokość odczytu. Można rozważyć dodanie -50 C do mpilup jeśli mapowanie
jakość jest przeszacowana w przypadku odczytów zawierających nadmierne niedopasowania. Zastosowanie tej opcji
zazwyczaj pomaga BWA-krótkie ale może nie innych twórców map.

o Wygeneruj sekwencję konsensusową dla jednego diploidalnego osobnika:

samtools mpileup -uf ref.fa aln.bam | widok bcftools -cg - | vcfutils.pl vcf2fq >
cns.fq

o Wywołaj mutacje somatyczne z pary próbek:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT para -> var.bcf

W wyjściowym polu INFO CLR daje stosunek Phred-log między prawdopodobieństwem przez
niezależne traktowanie dwóch próbek oraz prawdopodobieństwo wymagające genotypu
być identycznym. Ten CLR jest w rzeczywistości wynikiem mierzącym pewność somatyczną
połączenia. Im wyżej, tym lepiej.

o Call de novo i mutacje somatyczne z rodzinnego trio:

samtools mpileup -DSuf ref.fa aln.bam | widok bcftools -bvcgT para -s sample.txt - >
zmienna.bcf

filet próbki.txt powinien składać się z trzech wierszy określających członka i kolejność
próbki (w kolejności dziecko-ojciec-matka). Podobnie, CLR podaje Phred-log
iloraz wiarygodności z ograniczeniem trio i bez niego. CGU pokazuje najbardziej prawdopodobne
konfiguracja genotypu bez ograniczenia trio i CGT daje najbardziej prawdopodobne
konfiguracja genotypu spełniająca ograniczenie trio.

o Faza pierwsza indywidualna:

samtools uspokoił -AEur aln.bam ref.fa | samtools przedrostek -b fazy - > faza.wyłączenia

Połączenia uspokojony polecenie służy do redukcji fałszywych heterozygot wokół INDEL.

o Wywołaj SNP i krótkie indele dla wielu osobników diploidalnych:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools view -bcvg - > var.raw.bcf
bcftools widok var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

Osoby są identyfikowane z SM tagi w @Rzeka linie nagłówka. Osoby fizyczne mogą być
zebrane w jednym pliku wyrównania; jedną osobę można również podzielić na wiele plików.
Połączenia -P opcja określa, że ​​kandydaci indel powinni być zbierani tylko z grup odczytu
z @RG-PL etykieta ustawiona na PODŚWIETL. Zbieranie kandydatów na indel z sekwencjonowanych odczytów
przez technologię podatną na indel może wpływać na wydajność wywoływania indel.

Zauważ, że istnieje nowy model wywoływania, który może być wywoływany przez

Widok bcftools -m0.99 ...

co naprawia niektóre poważne ograniczenia metody domyślnej.

Wydaje się, że w przypadku filtrowania najlepsze wyniki uzyskuje się, stosując najpierw metodę SnpGap filtr i
następnie stosując podejście do uczenia maszynowego

vcf-adnotate -f SnpGap=n
filtr vcf...

Oba można znaleźć w vcftools i htslib Pakiet (linki poniżej).

o Wyprowadź widmo częstotliwości alleli (AFS) na liście miejsc od wielu osób:

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools view -bl sites.list all.bcf > sites.bcf
bcftools view -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools view -cGP sites.1.afs sites.bcf > /dev/null 2> sites.2.afs
bcftools view -cGP sites.2.afs sites.bcf > /dev/null 2> sites.3.afs
......

gdzie lista witryn zawiera listę witryn z każdym wierszem składającym się z odnośnika
nazwa sekwencji i pozycja. Następujące bcftools komendy szacują AFS przez EM.

o Zrzuć zastosowane wyrównanie BAQ dla innych wywołujących SNP:

samtools uspokoił -bAr aln.bam > aln.baq.bam

Dodaje i poprawia NM i MD tagi w tym samym czasie. The uspokojony przychodzi też polecenie
z -C opcja taka sama jak w spiętrzyć i mpilup. Zastosuj, jeśli to pomoże.

OGRANICZENIA


o Niewyrównane słowa używane w bam_import.c, bam_endian.h, bam.c i bam_aux.c.

o Samtools sparowany koniec rmdup nie działa dla niesparowanych odczytów (np.
mapowane na różne chromosomy). Jeśli jest to problem, skorzystaj z usług Picarda
MarkDuplicate, który poprawnie obsługuje te przypadki, choć trochę wolniej.

Korzystaj z bcftools online, korzystając z usług onworks.net


Darmowe serwery i stacje robocze

Pobierz aplikacje Windows i Linux

Komendy systemu Linux

Ad