англійськафранцузькаіспанська

Ad


Значок OnWorks

vcftools - онлайн у хмарі

Запустіть vcftools у постачальнику безкоштовного хостингу OnWorks через Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS

Це команда vcftools, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS.

ПРОГРАМА:

ІМ'Я


vcftools - аналіз файлів VCF

СИНТАКСИС


vcftools [ВАРІАНТИ]

ОПИС


Програма vcftools запускається з командного рядка. Інтерфейс натхненний PLINK і
тому користувачі цього пакета повинні бути добре знайомі. Команди мають такий вигляд:

vcftools --vcf file1.vcf --chr 20 --freq

Наведена вище команда наказує vcftools читати файл file1.vcf, витягувати сайти
хромосомі 20 і обчисліть частоту алелів на кожній ділянці. Отриманий алель
оцінки частоти зберігаються у вихідному файлі out.freq. Як у наведеному вище прикладі,
вихідні дані vcftools в основному надсилаються у вихідні файли, а не відображаються на
екран.

Зауважте, що деякі команди можуть бути доступні лише в останній версії vcftools. Щоб отримати
останньої версії, ви повинні використовувати SVN, щоб отримати останній код, як описано на
домашня сторінка.

Також зауважте, що поліплоїдні генотипи наразі не підтримуються.

базовий Опції
--vcf
Цей параметр визначає файл VCF, який буде оброблено. Файли потрібно розпакувати
перед використанням з vcftools. vcftools очікує файли у форматі VCF v4.0, a
специфікацію якого можна знайти тут.

--gzvcf
Цей параметр можна використовувати замість параметра --vcf для читання стиснутих (gzipped)
Файли VCF безпосередньо. Зауважте, що цей параметр може бути досить повільним, якщо використовується з великим
файли.

-- вихід
Цей параметр визначає вихідний префікс імені файлу для всіх файлів, створених vcftools.
Наприклад, якщо має значення вихідний_файл, то всі вихідні файли будуть
у формі вихідний_файл ім'я.*** . Якщо цей параметр опущено, усі вихідні файли будуть
мати префікс 'out.'.

сайт фільтр Опції
--хр
Обробляйте лише сайти із збігом ідентифікатора хромосоми

--від-bp

--to-bp
Ці параметри визначають фізичний діапазон сайтів, які будуть оброблятися. Сайти за межами
цього діапазону буде виключено. Ці параметри можна використовувати лише разом із
--хр.

--snp
Включіть SNP(и) із відповідним ідентифікатором. Цю команду можна використовувати кілька разів по порядку
включати більше одного SNP.

--snps
Включіть список SNP, наведений у файлі. Файл повинен містити список ідентифікаторів SNP,
з одним ідентифікатором на рядок.

--виключити
Виключити список SNP, наведений у файлі. Файл повинен містити список ідентифікаторів SNP,
з одним ідентифікатором на рядок.

-- посади
Включіть набір сайтів на основі списку позицій. Кожен рядок введення
файл повинен містити хромосому (розділені табуляторами) і позицію. Файл повинен
мати рядок заголовка. Сайти, не включені до списку, виключені.

--ліжко

--виключити-ліжко
Включіть або виключіть набір сайтів на основі файлу BED. Тільки перші три
потрібні стовпці (chrom, chromStart і chromEnd). Файл BED повинен мати a
рядок заголовка.

--remove-filtered-all

--видалити-фільтрувати

--зберігати-фільтрувати
Ці параметри використовуються для фільтрації сайтів на основі їх прапора FILTER. The
перший варіант видаляє всі сайти з прапорцем FILTER. Другим варіантом можна скористатися
виключити сайти з певним прапорцем фільтра. Третій варіант можна використовувати для вибору
сайти на основі певних прапорів фільтрів. Другий і третій варіанти можуть бути
використовується кілька разів для визначення кількох фільтрів. Опція --keep-filtered є
застосовується перед параметром --remove-filtered.

--minQ
Включати лише сайти з якістю вище цього порогу.

--min-seanDP

--max-seanDP
Включіть сайти із середньою глибиною в межах порогових значень, визначених цими параметрами.

--maf

--max-maf
Включати лише сайти з частотою незначного алеля в межах зазначеного діапазону.

--non-ref-af

--max-non-ref-af
Включіть лише сайти з нереферентною частотою алелів у вказаному діапазоні.

--відтінок
Оцінює сайти для рівноваги Харді-Вайнберга за допомогою точного тесту, як визначено
Віггінтон, Катлер і Абекасіс (2005). Сайти зі значенням p нижче порогового значення
визначені цим параметром, вважаються поза HWE, а отже, виключаються.

--гено
Виключити сайти на основі частки відсутніх даних (визначається як між
0 і 1).

--мін-алелі

--max-алелі
Включати лише сайти з кількістю алелей у вказаному діапазоні. Для
наприклад, щоб включити лише двоалельні сайти, можна використати:

vcftools --vcf file1.vcf --min-алелі 2 --max-алелі 2

--маска

--інвертна маска

--маска-хв
Включіть сайти на основі файлу, схожого на FASTA. Наданий файл містить a
послідовність цілих цифр (від 0 до 9) для кожної позиції на хромосомі, яка
вкажіть, чи потрібно фільтрувати сайт на цій позиції чи ні. Приклад файлу маски
буде виглядати так:

>1
0000011111222 ...

У цьому прикладі сайти у файлі VCF розташовані в межах перших 5 баз
початок хромосоми 1 буде збережено, тоді як ділянки в позиції 6 і далі будуть збережені
відфільтровано. Порогове ціле число, яке визначає, фільтруються сайти чи ні
встановіть за допомогою параметра --mask-min, для якого за замовчуванням встановлено значення 0. Хромосоми, що містяться в
файл маски має бути відсортований у тому ж порядку, що й файл VCF. Опція --mask
використовується для визначення файлу маски, який буде використано, тоді як параметр --invert-mask може
використовуватися, щоб вказати файл маски, який буде інвертовано перед застосуванням.

Людина фільтри
--індв
Вкажіть особу, яку потрібно залишити в аналізі. Цей параметр можна використовувати кілька разів
разів, щоб вказати кількох осіб.

-- тримати
Надайте файл зі списком осіб, які потрібно включити в подальший аналіз.
Кожен індивідуальний ідентифікатор (як визначено в заголовку VCF) має бути включено в a
окремий рядок.

--remove-indv
Вкажіть особу, яку потрібно вилучити з аналізу. Цю опцію можна використовувати
кілька разів, щоб указати кількох осіб. Якщо параметр --indv також є
вказано, то параметр --indv виконується перед параметром --remove-indv.

-видалити
Надайте файл зі списком осіб, які слід виключити під час подальшого аналізу.
Кожен індивідуальний ідентифікатор (як визначено в заголовку VCF) має бути включено в a
окремий рядок. Якщо використовуються як параметри --keep, так і --remove, то
Параметр --keep виконується перед опцією --remove.

--mon-indv-meanDP

--max-indv-meanDP
Обчисліть середнє охоплення для кожної особи. Тільки особи з
покриття в межах діапазону, визначеного цими параметрами, включені в наступні
аналізів.

-- розум
Вкажіть мінімальний поріг швидкості дзвінків для кожної особи.

--поетапно
Спочатку виключаються всі особини, у яких усі генотипи нефазовані, а згодом
виключає всі ділянки з нефазованими генотипами. Таким чином, решта даних складається
лише поетапних даних.

Генотип фільтри
--remove-filtered-geno-all

--remove-filtered-geno
Перший варіант видаляє всі генотипи з прапорцем FILTER. Другий варіант може бути
використовується для виключення генотипів із певним прапорцем фільтра.

--minGQ
Виключити всі генотипи з якістю нижче порогу, визначеного цим параметром
(GQ).

--minDP
Виключити всі генотипи з глибиною секвенування, нижчою за визначену цим параметром
(SD)

Вихід Статистика
--частота

--лічиться

--частота 2

--лічи2
Вивести інформацію про частоту для кожного сайту. --freq виводить частоту алеля в a
файл із суфіксом '.frq'. Параметр --counts виводить подібний файл із файлом
суфікс '.frq.count', який містить необроблену кількість алелів на кожному сайті. --freq2
і параметри --count2 використовуються для придушення інформації про алелі у вихідному файлі. в
у цьому випадку порядок частот/лічильників залежить від нумерації у файлі VCF.

--глибина
Створює файл із середнім значенням глибини на кожну людину. Цей файл має суфікс
'.idepth'.

-- глибина сайту

--сайт-середня-глибина
Генерує файл, що містить глибину для кожного сайту. Параметр --site-depth виводить
глибина для кожного сайту, підсумована за окремими особами. Цей файл має суфікс '.ldepth'.
Аналогічно, --site-mean-depth виводить середню глибину для кожного сайту та
вихідний файл має суфікс '.ldepth.mean'.

--гено-глибина
Генерує (можливо, дуже великий) файл, що містить глибину для кожного генотипу
файл VCF. Відсутнім записам надається значення -1. Файл має суфікс
'.gdepth'.

--якість сайту
Генерує файл, що містить якість SNP для кожного сайту, як показано в стовпці QUAL
файлу VCF. Цей файл має суфікс '.lqual'.

--хет Обчислює міру гетерозиготності для кожної особини. Зокрема,
Коефіцієнт інбридингу F оцінюється для кожної особини за допомогою методу
моменти. Отриманий файл має суфікс '.het'.

--витривалий
Повідомляє значення p для кожного сайту з тесту рівноваги Харді-Вайнберга (як визначено
Віггінтона, Катлера та Абеказіса (2005)). Отриманий файл (із суфіксом '.hwe')
також містить спостережувані числа гомозигот і гетерозигот і
відповідні Очікувані числа під HWE.

-- відсутній
Генерує два файли, які повідомляють про відсутність для окремої особи та для кожного сайту
основи. Два файли мають суфікси '.imiss' та '.lmiss' відповідно.

--hap-r2

--geno-r2

--ld-вікно

--ld-window-bp

--хв-r2
Ці параметри використовуються для звітування про статистику нерівноваги зв’язку (LD).
підсумовується статистикою r2. Параметр --hap-r2 повідомляє vcftools про вихід a
файл, що повідомляє статистику r2 з використанням поетапних гаплотипів. Це традиційне
міра LD часто повідомляється в літературі з популяційної генетики. Якщо поетапно
гаплотипи недоступні, то можна використовувати параметр --geno-r2, який обчислює
квадрат коефіцієнта кореляції між генотипами, закодованими як 0, 1 і 2 до
представляють кількість нереферентних алелей у кожної особини. Це те саме
як показник LD, про який повідомляє PLINK. Версія гаплотипу виводить файл з
суфікс '.hap.ld', тоді як версія генотипу виводить файл із суфіксом
'.geno.ld'. Версія гаплотипу передбачає опцію --phased.

Параметр --ld-window визначає максимальне поділ SNP для обчислення
LD. Аналогічно, параметр --ld-window-bp можна використовувати для визначення максимальної фізичної
поділ SNP, включених у розрахунок LD. Нарешті, --min-r2 встановлює a
мінімальне значення для r2, нижче якого статистика LD не повідомляється.

--SNPdnsity
Обчислює кількість і щільність SNP в контейнерах розміру, визначеного цим параметром.
Отриманий вихідний файл має суфікс '.snpden'.

--ЦТВ
Обчислює коефіцієнт переходу / трансверсії в ящиках розміру, визначеного цим
варіант. Отриманий вихідний файл має суфікс '.TsTv'. Резюме також є
надається у файлі із суфіксом ".TsTv.summary".

--FILTER-підсумок
Генерує підсумок кількості SNP і співвідношення Ts/Tv для кожної категорії FILTER.
Вихідний файл має суфікс '.FILTER.summary.

--filtered-sites
Створює два файли зі списком сайтів, які були збережені або видалені після фільтрації. The
перший файл із суфіксом '.kept.sites' містить список сайтів, які зберігаються vcftools після фільтрів
були застосовані. Другий файл із суфіксом '.removed.sites' містить список сайтів
видаляються застосованими фільтрами.

--одиночки
Цей параметр створить файл із детальним описом розташування синглтонів та
індивідуальні, в яких вони зустрічаються. Файл повідомляє як справжні одиночні, так і приватні
даблтони (тобто SNP, де мінорний алель зустрічається лише в однієї особини і
ця особина є гомозиготною для цього алеля). Вихідний файл має суфікс
'.singletons'.

--site-pi

--window-pi
Ці параметри використовуються для оцінки рівнів нуклеотидної різноманітності. Перший варіант
робить це на основі кожного сайту, а вихідний файл має суфікс '.sites.pi'. The
другий варіант обчислює різноманітність нуклеотидів у вікнах із розміром вікна
визначено в аргументі option. Вихід для цього параметра має суфікс
'.windowed.pi'. Віконна версія вимагає поетапних даних, а отже, використання цих даних
параметр передбачає параметр --phased.

Вихід in Інше Формати
--O12 Цей параметр виводить генотипи у вигляді великої матриці. Створено три файли. The
по-перше, із суфіксом '.012', містить генотипи кожної особини окремо
лінія. Генотипи представлені як 0, 1 і 2, де число означає це
кількість нереферентних алелей. Відсутні генотипи представлені -1. The
другий файл із суфіксом '.012.indv' містить відомості про осіб, включених до основного
файл. Третій файл із суфіксом '.012.pos' містить детальну інформацію про розташування сайтів
основний файл.

--ІМПУТАТИ
Цей параметр виводить поетапні гаплотипи у форматі контрольної панелі IMPUTE. Як IMPUTE
вимагає поетапних даних, використання цієї опції також означає --phased. Нефазований
тому особини та генотипи виключаються. Є лише двоалельні ділянки
включені до виходу. Використання цієї опції створює три файли. IMPUTE
файл гаплотипу має суфікс '.impute.hap', а файл легенди IMPUTE має
суфікс '.impute.hap.legend'. Третій файл із суфіксом '.impute.hap.indv',
деталі осіб, включених у файл гаплотипу, хоча цей файл не є
потрібно IMPUTE.

--ldhat

--ldhat-geno
Ці параметри виводять дані у форматі LDhat. Використання цих параметрів також вимагає
--chr параметр для використовується. Опція --ldhat виводить лише поетапні дані, отже
також має на увазі --поетапність, що призводить до нефазованого буття особин і генотипів
виключено. Крім того, параметр --ldhat-geno розглядає всі дані як
нефазований, і, отже, виводить файли LDhat у форматі генотип/нефазований. У будь-якому
у разі створення двох файлів із суфіксами '.ldhat.sites' та '.ldhat.locs',
які відповідають вхідним файлам LDhat 'sites' і 'locs' відповідно.

--БІГЛЬ-ГЛ
Цей параметр виводить інформацію про ймовірність генотипу для введення в BEAGLE
програма. Цей параметр вимагає, щоб файл VCF містив тег FORMAT GL, який може
зазвичай виводяться викликами SNP, такими як GATK. Використання цієї опції вимагає a
хромосому, яку потрібно вказати за допомогою параметра --chr. Отриманий вихідний файл (з
суфікс '.BEAGLE.GL') містить ймовірність генотипу для біалельних сайтів і
підходить для введення в BEAGLE за допомогою аргументу 'like='.

--plink
Цей параметр виводить дані генотипу у форматі PLINK PED. Створено два файли,
із суфіксами «.ped» і «.map». Зауважте, що будуть виведені тільки біалельні локуси.
Додаткову інформацію про ці файли можна знайти в документації PLINK.

Примітка. Цей параметр може працювати дуже повільно на великих наборах даних. Використання параметра --chr для
рекомендується розділити набір даних.

--plink-tped
Опція --plink вище може бути надзвичайно повільною на великих наборах даних. Альтернатива
це може бути значно швидшим, якщо вивести у транспонованому форматі PLINK.
Цього можна досягти за допомогою параметра --plink-tped, який створює два файли з
суфікси ".tped" і ".tfam".

--перекодувати
Параметр --recode використовується для створення файлу VCF із вхідного файлу VCF, що має
застосував параметри, зазначені користувачем. Вихідний файл має суфікс
'.recode.vcf'.

За замовчуванням поля INFO видаляються з вихідного файлу як значення INFO
може бути скасовано перекодуванням (наприклад, може знадобитися загальна глибина
перераховується, якщо особи вилучаються). Ця функція за замовчуванням може бути
змінюється за допомогою --keep-INFO варіант, де визначає
Ключ INFO для збереження у вихідному файлі. Прапор --keep-INFO можна використовувати кілька разів
разів. Крім того, параметр --keep-INFO-all можна використовувати для збереження всієї інформації
полів.

Різне
--extract-FORMAT-info
Витягніть інформацію з полів генотипу у файлі VCF, що відноситься до вказаного
Ідентифікатор FORMAT. Наприклад, використання параметра '--extract-FORMAT-info GT' буде
витягти всі записи GT (тобто генотип). Отриманий вихідний файл має
суфікс '. .ФОРМАТ'.

--отримати інформацію
Цей параметр використовується для вилучення інформації з поля INFO у файлі VCF. The
Аргумент визначає тег INFO, який буде витягнутий, а параметр може бути
використовується кілька разів для вилучення кількох записів INFO. Отриманий файл,
із суфіксом '.INFO', містить необхідну інформацію INFO через табуляцію
стіл. Наприклад, щоб витягти прапори NS і DB, можна використати команду:

vcftools --vcf file1.vcf --get-INFO NS --get-INFO DB

VCF філе порівняння Опції
Параметри порівняння файлів наразі змінюються і, ймовірно, помиляються. Якщо ви
знайдіть помилку, будь ласка, повідомте про неї. Зауважте, що фільтри на рівні генотипу в них не підтримуються
Варіанти.

--розн

--gzdiff
Виберіть файл VCF для порівняння з файлом, визначеним параметром --vcf.
Виводить два файли з описом сайтів та осіб, загальних / унікальних для кожного
файл. Ці файли мають суфікси '.diff.sites_in_files' та
'.diff.indv_in_files' відповідно. Версію --gzdiff можна використовувати для читання
стислі файли VCF.

--diff-site-discordance
Використовується разом з опцією --diff для обчислення невідповідності на сайті за
основу сайту. Отриманий вихідний файл має суфікс '.diff.sites'.

--diff-indv-discordance
Використовується разом з опцією --diff для обчислення невідповідності на-
індивідуальна основа. Отриманий вихідний файл має суфікс '.diff.indv'.

--diff-discordance-matrix
Використовується разом з опцією --diff для обчислення матриці розбіжностей. Це
Опція працює лише з двоалельними локусами з відповідними алелями, які присутні в
обидва файли. Отриманий вихідний файл має суфікс '.diff.discordance.matrix'.

--diff-switch-помилка
Використовується разом з опцією --diff для обчислення похибок фазування
(зокрема, «помилки перемикання»). Цей параметр створює два вихідні файли з описом
помилки перемикання, виявлені між сайтами, і середня помилка перемикання на одну особу.
Ці два файли мають суфікси '.diff.switch' та '.diff.indv.switch'
відповідно.

Опції як і раніше in розробка
Наведені нижче варіанти ще не доопрацьовані, імовірно, вони містять помилки та ймовірно
змінити в майбутньому.

--fst

--gzfst
Обчисліть FST для пари VCF файлів, при цьому другий файл буде вказано цим
варіант. Наразі FST розраховується за формулою, описаною в
додатковий матеріал до статті HapMap Phase I. Наразі тільки попарний FST
розрахунки підтримуються, хоча це, ймовірно, зміниться в майбутньому. The
Опцію --gzfst можна використовувати для читання стиснутих файлів VCF.

--LROH Визначте тривалі періоди гомозиготності.

--спорідненість
Вихідні дані про індивідуальну спорідненість.

Використовуйте vcftools онлайн за допомогою служб onworks.net


Безкоштовні сервери та робочі станції

Завантажте програми для Windows і Linux

  • 1
    Жар-птиця
    Жар-птиця
    Firebird RDBMS пропонує функції ANSI SQL
    і працює на Linux, Windows і
    кілька платформ Unix. особливості
    чудова паралельність і продуктивність
    & потужність...
    Завантажити Firebird
  • 2
    KompoZer
    KompoZer
    KompoZer — це HTML-редактор wysiwyg, який використовує
    кодова база Mozilla Composer. Як
    Розвиток Nvu було зупинено
    у 2005 році KompoZer виправляє багато помилок і
    додає ф...
    Завантажити KompoZer
  • 3
    Безкоштовний завантажувач манги
    Безкоштовний завантажувач манги
    Безкоштовний завантажувач манги (FMD) є
    програма з відкритим кодом, написана
    Object-Pascal для управління і
    завантаження манги з різних веб-сайтів.
    Це дзеркало...
    Завантажте безкоштовний завантажувач манги
  • 4
    Aetbootin
    Aetbootin
    UNetbootin дозволяє створювати завантажувальні програми
    Живі USB-накопичувачі для Ubuntu, Fedora та
    інші дистрибутиви Linux без
    запис компакт-диска. Він працює на Windows, Linux,
    і ...
    Завантажити UNetbootin
  • 5
    Dolibarr ERP - CRM
    Dolibarr ERP - CRM
    Dolibarr ERP - CRM проста у використанні
    Пакет програмного забезпечення з відкритим кодом ERP і CRM
    (запустити з веб-сервером php або як
    автономне програмне забезпечення) для бізнесу,
    основи...
    Завантажити Dolibarr ERP - CRM
  • 6
    SQL-клієнт SQuirreL
    SQL-клієнт SQuirreL
    SQuirreL SQL Client — це графічний SQL
    клієнт, написаний на Java, що дозволить
    Ви можете переглянути структуру JDBC
    сумісна база даних, переглядайте дані в
    столи...
    Завантажте клієнт SQuirreL SQL
  • Детальніше »

Команди Linux

Ad