Angielskifrancuskihiszpański

Ad


Ulubiona usługa OnWorks

vcftools - Online w chmurze

Uruchom vcftools u dostawcy bezpłatnego hostingu OnWorks przez Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

Jest to polecenie vcftools, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

PROGRAM:

IMIĘ


vcftools - analizuj pliki VCF

STRESZCZENIE


vcftools [OPCJE]

OPIS


Program vcftools uruchamiany jest z wiersza poleceń. Interfejs jest inspirowany PLINK i
więc powinno być dobrze znane użytkownikom tego pakietu. Polecenia mają następującą postać:

vcftools --vcf plik1.vcf --chr 20 --freq

Powyższe polecenie mówi vcftools, aby odczytał plik plik1.vcf, rozpakował witryny
chromosomu 20 i obliczyć częstotliwość alleli w każdym miejscu. Powstały allel
oszacowania częstotliwości są przechowywane w pliku wyjściowym, out.freq. Jak w powyższym przykładzie,
dane wyjściowe z vcftools są głównie wysyłane do plików wyjściowych, w przeciwieństwie do pokazywania ich na
ekran.

Pamiętaj, że niektóre polecenia mogą być dostępne tylko w najnowszej wersji vcftools. Pozyskać
najnowsza wersja, powinieneś użyć SVN, aby sprawdzić najnowszy kod, jak opisano na
strona główna.

Należy również zauważyć, że genotypy poliploidalne nie są obecnie obsługiwane.

Basic Opcje
--vcf
Ta opcja definiuje plik VCF do przetworzenia. Pliki muszą zostać rozpakowane
przed użyciem z vcftools. vcftools oczekuje plików w formacie VCF v4.0, a
którego specyfikację można znaleźć tutaj.

--gzvcf
Ta opcja może być użyta zamiast opcji --vcf do odczytu skompresowanego (skompresowanego gzipem)
Pliki VCF bezpośrednio. Pamiętaj, że ta opcja może działać dość wolno, gdy jest używana z dużymi
akta.

--na zewnątrz
Ta opcja określa prefiks nazwy pliku wyjściowego dla wszystkich plików generowanych przez vcftools.
Na przykład, jeśli jest ustawiony na nazwa_pliku_wyjściowego, wtedy wszystkie pliki wyjściowe będą
w postaci nazwa_pliku_wyjściowego.*** . Jeśli ta opcja zostanie pominięta, wszystkie pliki wyjściowe będą:
mieć przedrostek 'out.'.

teren FILTRY Opcje
--chr
Przetwarzaj tylko miejsca z pasującym identyfikatorem chromosomu

--od-bp

--do-bp
Te opcje definiują fizyczny zakres witryn, które będą przetwarzane. Witryny zewnętrzne
z tego zakresu zostanie wykluczony. Te opcje mogą być używane tylko w połączeniu z
--chr.

--przyp
Uwzględnij SNP z pasującym identyfikatorem. To polecenie może być użyte wiele razy w kolejności
zawierać więcej niż jeden SNP.

--snp
Dołącz listę SNP podaną w pliku. Plik powinien zawierać listę identyfikatorów SNP,
z jednym identyfikatorem na linię.

--wykluczać
Wyklucz listę SNP podaną w pliku. Plik powinien zawierać listę identyfikatorów SNP,
z jednym identyfikatorem na linię.

--pozycje
Uwzględnij zestaw witryn na podstawie listy pozycji. Każda linia wejścia
plik powinien zawierać (oddzielony tabulatorami) chromosom i pozycję. Plik powinien
mieć wiersz nagłówka. Witryny nieuwzględnione na liście są wykluczone.

--łóżko

--wyklucz-łóżko
Uwzględnij lub wyklucz zestaw witryn na podstawie pliku BED. Tylko pierwsze trzy
wymagane są kolumny (chrom, chromStart i chromEnd). Plik BED powinien mieć
wiersz nagłówka.

--usuń-filtrowane-wszystkie

--usuń-filtrowane

--utrzymuj filtrowanie
Te opcje służą do filtrowania witryn na podstawie ich flagi FILTER. ten
pierwsza opcja usuwa wszystkie witryny z flagą FILTER. Druga opcja może być wykorzystana do:
wyklucz witryny z określoną flagą filtra. Trzecia opcja może być użyta do wyboru
witryn na podstawie określonych flag filtrów. Drugą i trzecią opcją mogą być
wielokrotnie używany do określenia wielu FILTRÓW. Opcja --keep-filtered to
zastosowane przed opcją --remove-filtered.

--minQ
Uwzględnij tylko witryny o jakości powyżej tego progu.

--min-średniaDP

--max-średni DP
Uwzględnij witryny o średniej głębokości mieszczącej się w progach określonych przez te opcje.

--maf

--max-maf
Uwzględnij tylko witryny z podrzędną częstością alleli w określonym zakresie.

--non-ref-af

--max-non-ref-af
Uwzględnij tylko witryny z częstością alleli innych niż odniesienia w określonym zakresie.

--odcień
Ocenia miejsca pod kątem równowagi Hardy'ego-Weinberga za pomocą dokładnego testu, zdefiniowanego przez
Wigginton, Cutler i Abekoza (2005). Witryny o wartości p poniżej progu
zdefiniowane przez tę opcję są uważane za spoza HWE, a zatem wykluczone.

--geno
Wyklucz lokalizacje na podstawie proporcji brakujących danych (zdefiniowanych jako między
0 i 1).

--min-allele

--max-allele
Uwzględnij tylko miejsca z liczbą alleli w określonym zakresie. Do
na przykład, aby uwzględnić tylko miejsca dwu alleliczne, można użyć:

vcftools --vcf plik1.vcf --min-allele 2 --max-allele 2

--maska

--odwrócona maska

--maska-min
Uwzględnij witryny na podstawie pliku podobnego do FASTA. Dostarczony plik zawiera
sekwencja cyfr całkowitych (od 0 do 9) dla każdej pozycji na chromosomie, która
określić, czy witryna na tej pozycji powinna być filtrowana, czy nie. Przykładowy plik maski
wyglądałby jak:

>1
0000011111222 ...

W tym przykładzie witryny w pliku VCF zlokalizowane w pierwszych 5 bazach
zostanie zachowany początek chromosomu 1, podczas gdy miejsca w pozycji 6 wzwyż będą
odfiltrowane. Próg liczba całkowita określająca, czy witryny są filtrowane, czy nie, to
ustawić za pomocą opcji --mask-min, której wartością domyślną jest 0. Chromosomy zawarte w
plik maski musi być posortowany w tej samej kolejności, co plik VCF. Opcja --maska
służy do określenia pliku maski, który ma być użyty, podczas gdy opcja --invert-mask może
być używane do określenia pliku maski, który zostanie odwrócony przed zastosowaniem.

nauczanie indywidualne filtry
--ind
Określ osobę, która ma być zatrzymana w analizie. Ta opcja może być używana wielokrotnie
razy, aby określić wiele osób.

--trzymać
Dostarcz plik zawierający listę osób do uwzględnienia w późniejszej analizie.
Każdy indywidualny identyfikator (zgodnie z definicją w nagłówku VCF) powinien być uwzględniony w a
oddzielna linia.

--usuń indv
Określ osobę, która ma zostać usunięta z analizy. Z tej opcji można skorzystać
wiele razy, aby określić wiele osób. Jeśli opcja --indv jest również
określonej, to opcja --indv jest wykonywana przed opcją --remove-indv.

--usunąć
Prześlij plik zawierający listę osób do wykluczenia w dalszej analizie.
Każdy indywidualny identyfikator (zgodnie z definicją w nagłówku VCF) powinien być uwzględniony w a
oddzielna linia. Jeśli użyto zarówno opcji --keep, jak i --remove, wtedy
Opcja --keep jest wykonywana przed opcją --remove.

--mon-indv-średniaDP

--max-indv-średniaDP
Oblicz średnie pokrycie indywidualnie. Tylko osoby z
zasięg w zakresie określonym przez te opcje są uwzględnione w kolejnych
ćwiczenie.

--umysł
Określ próg minimalnej stawki za połączenie dla każdej osoby.

---fazowo
Najpierw wyklucza wszystkie osobniki, które mają wszystkie genotypy niefazowane, a następnie
wyklucza wszystkie miejsca z niefazowymi genotypami. Pozostałe dane składają się zatem:
tylko danych etapowych.

Genotyp filtry
--usuń-filtrowane-geno-wszystko

--usuń-filtrowany-geno
Pierwsza opcja usuwa wszystkie genotypy z flagą FILTER. Drugą opcją może być
służy do wykluczania genotypów z określoną flagą filtra.

--minGQ
Wyklucz wszystkie genotypy o jakości poniżej progu określonego przez tę opcję
(GQ).

--minDP
Wyklucz wszystkie genotypy o głębokości sekwencjonowania poniżej określonej przez tę opcję
(SD)

Wydajność Statistics
--częst

--liczy się

--częst.2

--liczy2
Wyprowadzanie informacji o częstotliwości dla poszczególnych witryn. --freq wyświetla częstotliwość alleli w a
plik z rozszerzeniem „.frq”. Opcja --counts wyświetla podobny plik z
przyrostek „.frq.count”, który zawiera surową liczbę alleli w każdym miejscu. --freq2
Opcje i --count2 są używane do pomijania informacji o allelu w pliku wyjściowym. w
w tym przypadku kolejność freqs/counts zależy od numeracji w pliku VCF.

--głębokość
Generuje plik zawierający średnią głębokość na osobę. Ten plik ma przyrostek
„.głębokość”.

--głębokość witryny

--strona-średnia-głębokość
Generuje plik zawierający głębokość na witrynę. Opcja --site-depth wypisuje
głębokość dla każdej witryny zsumowana dla poszczególnych osób. Ten plik ma rozszerzenie '.ldepth'.
Podobnie, --site-mean-depth wyprowadza średnią głębokość dla każdej witryny, a
plik wyjściowy ma przyrostek '.ldepth.mean'.

--geno-głębokość
Generuje (prawdopodobnie bardzo duży) plik zawierający głębokość dla każdego genotypu w
plik VCF. Brakujące wpisy otrzymują wartość -1. Plik ma przyrostek
„.ggłębokość”.

--jakość-witryny
Generuje plik zawierający jakość SNP dla poszczególnych witryn, zgodnie z kolumną QUAL
pliku VCF. Ten plik ma rozszerzenie „.lqual”.

-- het Oblicza miarę heterozygotyczności na podstawie indywidualnej. W szczególności
współczynnik inbredu, F, szacuje się dla każdego osobnika metodą
chwile. Wynikowy plik ma rozszerzenie '.het'.

--wytrzymały
Podaje wartość p dla każdego miejsca z testu równowagi Hardy'ego-Weinberga (zgodnie z definicją
przez Wigginton, Cutler i Abecasis (2005). Wynikowy plik (z przyrostkiem „.hwe”)
zawiera również obserwowane liczby homozygot i heterozygot oraz
odpowiadające oczekiwane liczby w ramach HWE.

--zaginiony
Generuje dwa pliki zgłaszające braki dla poszczególnych osób i dla poszczególnych witryn
podstawa. Te dwa pliki mają odpowiednio przyrostki „.imiss” i „.lmiss”.

--hap-r2

--geno-r2

--ld-okno

--ld-okno-bp

--min-r2
Te opcje są używane do raportowania statystyk nierównowagi połączeń (LD) jako
podsumowane statystyką r2. Opcja --hap-r2 informuje vcftools o wypisaniu a
plik raportujący statystykę r2 przy użyciu fazowanych haplotypów. To jest tradycyjna
miara LD często opisywana w literaturze z zakresu genetyki populacyjnej. W przypadku stopniowego
haplotypy są niedostępne, wtedy można użyć opcji --geno-r2, która oblicza
kwadrat współczynnika korelacji między genotypami zakodowanymi jako 0, 1 i 2 do
reprezentują liczbę alleli niereferencyjnych u każdego osobnika. to jest to samo
jako miara LD zgłoszona przez PLINK. Wersja haplotypu wyprowadza plik z
przyrostek '.hap.ld', podczas gdy wersja genotypu wypisuje plik z przyrostkiem
„.geno.ld”. Wersja haplotypu implikuje opcję --phased.

Opcja --ld-window określa maksymalną separację SNP do obliczenia
LD. Podobnie, opcja --ld-window-bp może być użyta do zdefiniowania maksymalnej fizycznej wartości
separacja SNP uwzględnionych w obliczeniach LD. Wreszcie --min-r2 ustawia a
minimalna wartość dla r2, poniżej której statystyka LD nie jest zgłaszana.

--SNPdnity
Oblicza liczbę i gęstość SNP w pojemnikach o rozmiarze określonym przez tę opcję.
Wynikowy plik wyjściowy ma przyrostek „.snpden”.

--TsTv
Oblicza współczynnik przejścia/przemiany w pojemnikach o rozmiarze określonym przez to
opcja. Wynikowy plik wyjściowy ma przyrostek „.TsTv”. Podsumowanie jest również
dostarczony w pliku z przyrostkiem „.TsTv.summary”.

--FILTER-podsumowanie
Generuje podsumowanie liczby SNP i współczynnika Ts/Tv dla każdej kategorii FILTR.
Plik wyjściowy ma przyrostek '.FILTER.summary.

--filtrowane-witryny
Tworzy dwa pliki z listą witryn, które zostały zachowane lub usunięte po przefiltrowaniu. ten
pierwszy plik, z przyrostkiem „.kept.sites”, zawiera listę witryn utrzymywanych przez vcftools po filtrach
zastosowano. Drugi plik, z przyrostkiem „.removed.sites”, zawiera listę witryn
usunięte przez zastosowane filtry.

--singleony
Ta opcja wygeneruje plik z wyszczególnieniem lokalizacji singletonów, a
jednostka, w której występują. Plik zawiera zarówno prawdziwe singletony, jak i prywatne
dubletony (tj. SNP, w których pomniejszy allel występuje tylko u jednego osobnika i
ta osoba jest homozygotyczna dla tego allelu). Plik wyjściowy ma przyrostek
„.singliki”.

--site-pi

--okno-pi
Te opcje są używane do oszacowania poziomów różnorodności nukleotydów. Pierwsza opcja
robi to na podstawie witryny, a plik wyjściowy ma przyrostek „.sites.pi”. ten
druga opcja oblicza zróżnicowanie nukleotydów w oknach, z rozmiarem okna
zdefiniowane w argumencie opcji. Dane wyjściowe dla tej opcji mają przyrostek
„.okno.pi”. Wersja z okienkiem wymaga danych etapowych, a zatem użycia tego
opcja implikuje opcję --phased.

Wydajność in Inne Formaty
--O12 Ta opcja wyświetla genotypy jako dużą macierz. Powstają trzy pliki. ten
pierwszy, z przyrostkiem „.012”, zawiera genotypy każdego osobnika na osobnym
linia. Genotypy są reprezentowane jako 0, 1 i 2, gdzie liczba to oznacza
liczba alleli niereferencyjnych. Brakujące genotypy są reprezentowane przez -1. ten
drugi plik, z przyrostkiem '.012.indv' wyszczególnia osoby uwzględnione w głównym
plik. Trzeci plik, z sufiksem '.012.pos', wyszczególnia lokalizacje witryny zawarte w
główny plik.

--PRZYPISAĆ
Ta opcja generuje etapowe haplotypy w formacie panelu referencyjnego IMPUTE. Jak IMPUTE
wymaga danych etapowych, użycie tej opcji implikuje również --phased. Niefazowana
osobniki i genotypy są zatem wykluczone. Tylko miejsca bi-alleliczne są
zawarte w danych wyjściowych. Użycie tej opcji generuje trzy pliki. IMPUTE
plik haplotype ma przyrostek '.impute.hap', a plik legendy IMPUTE ma
przyrostek „.imput.hap.legend”. Trzeci plik, z sufiksem „.impute.hap.indv”,
wyszczególnia osoby zawarte w pliku haplotypów, chociaż ten plik nie jest
potrzebne przez IMPUTE.

--ldhat

--ldhat-geno
Te opcje wyprowadzają dane w formacie LDhat. Korzystanie z tych opcji wymaga również
--chr opcja do by używana. Opcja --ldhat wyświetla tylko dane etapowe, dlatego
implikuje również ---fazowany, co prowadzi do niefazowanych osobników i genotypów
wyłączony. Alternatywnie, opcja --ldhat-geno traktuje wszystkie dane jako
unphased, a zatem wyprowadza pliki LDhat w formacie genotypowym/niefazowym. W obu
przypadku generowane są dwa pliki z przyrostkami „.ldhat.sites” i „.ldhat.locs”,
które odpowiadają odpowiednio plikom wejściowym LDhat 'sites' i 'locs'.

--BEAGLE-GL
Ta opcja wyświetla informacje o prawdopodobieństwie genotypu w celu wprowadzenia do BEAGLE
program. Ta opcja wymaga, aby plik VCF zawierał znacznik FORMAT GL, który może:
zazwyczaj są wyprowadzane przez wywołujące SNP, takie jak GATK. Użycie tej opcji wymaga
chromosom do podania za pomocą opcji --chr. Wynikowy plik wyjściowy (z
przyrostek „.BEAGLE.GL”) zawiera prawdopodobieństwa genotypu stron biallelicznych i jest
nadaje się do wprowadzenia do BEAGLE za pomocą argumentu „like=”.

--plink
Ta opcja wyprowadza dane genotypu w formacie PLINK PED. Generowane są dwa pliki,
z przyrostkami „.ped” i „.map”. Zauważ, że zostaną wyprowadzone tylko bi-alleliczne loci.
Więcej szczegółów na temat tych plików można znaleźć w dokumentacji PLINK.

Uwaga: ta opcja może działać bardzo wolno w przypadku dużych zestawów danych. Używanie opcji --chr do
zaleca się podzielenie zbioru danych.

--Plink-tped
Powyższa opcja --plink może działać bardzo wolno w przypadku dużych zestawów danych. Alternatywa
znacznie szybszym rozwiązaniem może być wyprowadzenie w transponowanym formacie PLINK.
Można to osiągnąć za pomocą opcji --plink-tped, która tworzy dwa pliki z
przyrostki „.tped” i „.tfam”.

--przekoduj
Opcja --recode służy do generowania pliku VCF z wejściowego pliku VCF posiadającego
zastosował opcje określone przez użytkownika. Plik wyjściowy ma przyrostek
„.rekod.vcf”.

Domyślnie pola INFO są usuwane z pliku wyjściowego, ponieważ wartości INFO
może zostać unieważnione przez przekodowanie (np. całkowita głębokość może wymagać
ponownie obliczone w przypadku usunięcia osób). Ta domyślna funkcja może być
nadpisany za pomocą --keep-INFO opcja, gdzie definiuje
Klawisz INFO do zachowania w pliku wyjściowym. Flaga --keep-INFO może być używana wielokrotnie
czasy. Alternatywnie można użyć opcji --keep-INFO-all do zachowania wszystkich INFO
pola.

Różne
--wyodrębnij-FORMAT-informacje
Wyodrębnij informacje z pól genotypu w pliku VCF dotyczące określonego
Identyfikator FORMATU. Na przykład użycie opcji '--extract-FORMAT-info GT' spowoduje
wyodrębnij wszystkie wpisy GT (tj. Genotyp). Wynikowy plik wyjściowy ma
przyrostek '. .FORMAT'.

--zdobyć informacje
Ta opcja służy do wyodrębniania informacji z pola INFO w pliku VCF. ten
argument określa znacznik INFO do wyodrębnienia, a opcja może być:
używane wielokrotnie w celu wyodrębnienia wielu wpisów INFO. Plik wynikowy,
z sufiksem '.INFO', zawiera wymagane informacje INFO w postaci rozdzielonej tabulatorami
Tabela. Na przykład, aby wyodrębnić flagi NS i DB, należy użyć polecenia:

vcftools --vcf plik1.vcf --get-INFO NS --get-INFO DB

VCF filet Porównanie Opcje
Opcje porównywania plików są obecnie w stanie płynnym i prawdopodobnie są błędne. Jeśli ty
znajdź błąd, zgłoś go. Zauważ, że filtry na poziomie genotypu nie są w nich obsługiwane
opcje.

--różnica

--gzdiff
Wybierz plik VCF do porównania z plikiem określonym przez opcję --vcf.
Wyprowadza dwa pliki opisujące strony i osoby wspólne / unikalne dla każdego
plik. Pliki te mają przyrostki „.diff.sites_in_files” i
odpowiednio '.różnic.indv_w_plikach'. Do odczytu można użyć wersji --gzdiff
skompresowane pliki VCF.

--diff-site-niezgodność
Używany w połączeniu z opcją --diff do obliczania niezgodności w witrynie według
podstawa witryny. Wynikowy plik wyjściowy ma przyrostek „.diff.sites”.

--diff-indv-niezgodność
Używane w połączeniu z opcją --diff do obliczania niezgodności na
na podstawie indywidualnej. Wynikowy plik wyjściowy ma przyrostek „.diff.indv”.

--matryca-różnic-niezgodności
Używany w połączeniu z opcją --diff do obliczania macierzy niezgodności. Ten
opcja działa tylko z bi-allelicznymi loci z pasującymi allelami, które są obecne w
oba pliki. Wynikowy plik wyjściowy ma przyrostek „.diff.discordance.matrix”.

--błąd-przełącznik-różnic
Używany w połączeniu z opcją --diff do obliczania błędów fazowania
(w szczególności „błędy przełączania”). Ta opcja generuje dwa pliki wyjściowe opisujące
błędy przełączania znalezione między witrynami oraz średni błąd przełączania na osobę.
Te dwa pliki mają przyrostki „.diff.switch” i „.diff.indv.switch”
odpowiednio.

Opcje nadal in rozwój
Poniższe opcje nie zostały jeszcze sfinalizowane, prawdopodobnie zawierają błędy i prawdopodobnie
zmienić w przyszłości.

--pierwszy

--gzfst
Oblicz FST dla pary plików VCF, przy czym drugi plik jest określony przez to
opcja. FST jest obecnie obliczany przy użyciu wzoru opisanego w
materiał uzupełniający do pracy Fazy I HapMap. Obecnie tylko parami FST
obliczenia są obsługiwane, chociaż prawdopodobnie zmieni się to w przyszłości. ten
Opcja --gzfst może być użyta do odczytu skompresowanych plików VCF.

--LROH Zidentyfikuj długie przebiegi homozygotyczności.

--pokrewieństwo
Wygeneruj statystyki powiązań indywidualnych.

Korzystaj z vcftools online za pomocą usług onworks.net


Darmowe serwery i stacje robocze

Pobierz aplikacje Windows i Linux

Komendy systemu Linux

Ad