АнглийскийФранцузскийИспанский

Ad


Значок OnWorks

vcftools - онлайн в облаке

Запустите vcftools в бесплатном хостинг-провайдере OnWorks через Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS

Это команда vcftools, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

ПРОГРАММА:

ИМЯ


vcftools - анализируйте файлы VCF

СИНТАКСИС


vcftools [ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ, НЕ ВКЛЮЧЕННЫЕ В ПАКЕТ]

ОПИСАНИЕ


Программа vcftools запускается из командной строки. Интерфейс вдохновлен PLINK, и
поэтому он должен быть хорошо знаком пользователям этого пакета. Команды имеют следующий вид:

vcftools --vcf файл1.vcf --chr 20 --freq

Приведенная выше команда указывает vcftools читать файл file1.vcf, извлекать сайты на
хромосома 20, и вычислите частоту аллеля на каждом участке. Результирующий аллель
оценки частоты хранятся в выходном файле out.freq. Как и в приведенном выше примере,
вывод из vcftools в основном отправляется в выходные файлы, а не отображается на
экран.

Обратите внимание, что некоторые команды могут быть доступны только в последней версии vcftools. Чтобы получить
последней версии, вы должны использовать SVN для проверки последнего кода, как описано на
домашняя страница.

Также обратите внимание, что полиплоидные генотипы в настоящее время не поддерживаются.

Базовый Опции
--vcf
Эта опция определяет файл VCF для обработки. Файлы необходимо распаковать
перед использованием с vcftools. vcftools ожидает файлы в формате VCF v4.0, a
спецификацию которого можно найти здесь.

--gzvcf
Эту опцию можно использовать вместо опции --vcf для чтения сжатых (gzip)
VCF файлы напрямую. Обратите внимание, что этот параметр может работать довольно медленно при использовании с большими
файлы.

--из
Эта опция определяет префикс выходного имени файла для всех файлов, созданных vcftools.
Например, если установлен на output_filename, тогда все выходные файлы будут
формы output_filename. ***. Если этот параметр не указан, все выходные файлы будут
имеют приставку 'out.'.

Сайт ФИЛЬТР Опции
--chr
Обрабатывать только сайты с совпадающим идентификатором хромосомы

--from-BP

--to-BP
Эти параметры определяют физический диапазон обрабатываемых сайтов. Сайты за пределами
из этого диапазона будут исключены. Эти параметры можно использовать только вместе с
- chr.

--снп
Включите SNP с совпадающим идентификатором. Эту команду можно использовать несколько раз по порядку
включить более одного SNP.

--snps
Включите в файл список SNP. Файл должен содержать список идентификаторов SNP,
с одним идентификатором на строку.

--исключать
Исключить список SNP, указанный в файле. Файл должен содержать список идентификаторов SNP,
с одним идентификатором на строку.

--позиции
Включите набор сайтов на основе списка позиций. Каждая строка ввода
файл должен содержать (разделенные табуляцией) хромосому и позицию. Файл должен
есть строка заголовка. Сайты, не включенные в список, исключаются.

--кровать

- исключить кровать
Включить или исключить набор сайтов на основе файла BED. Только первые три
столбцы (chrom, chromStart и chromEnd) обязательны. Файл BED должен иметь
строка заголовка.

--remove-filter-all

- удалить-отфильтрованный

- сохранить-фильтруется
Эти параметры используются для фильтрации сайтов на основе их флага ФИЛЬТР. В
Первый вариант удаляет все сайты с флагом ФИЛЬТР. Второй вариант можно использовать для
исключить сайты с определенным флагом фильтра. Третий вариант можно использовать для выбора
сайты на основе определенных флагов фильтра. Второй и третий варианты могут быть
используется несколько раз для указания нескольких ФИЛЬТРОВ. Параметр --keep-filter -
применяется перед параметром --remove-filter.

--minQ
Включайте только сайты с качеством выше этого порога.

--мин-среднее DP

--max-meanDP
Включите сайты со средней глубиной в пределах пороговых значений, определенных этими параметрами.

- маф

- макс-маф
Включайте только сайты с частотой второстепенных аллелей в указанном диапазоне.

--не-ссылка-аф

--max-не-ref-аф
Включите только сайты с нереференсной частотой аллелей в указанном диапазоне.

- оттенок
Оценивает места для равновесия Харди-Вайнберга, используя точный тест, как определено
Виггинтон, Катлер и Абекасис (2005). Сайты с p-значением ниже порога
определенные этой опцией считаются находящимися вне HWE и, следовательно, исключаются.

--гено
Исключить сайты на основе доли отсутствующих данных (определяется как
0 и 1).

--мин-аллели

--макс-аллели
Включите только сайты с количеством аллелей в указанном диапазоне. Для
Например, чтобы включить только биаллельные сайты, можно использовать:

vcftools --vcf file1.vcf --min-аллели 2 --max-аллели 2

- маска

--invert-маска

--маска-мин
Включайте сайты на основе файла типа FASTA. Предоставленный файл содержит
последовательность целых цифр (от 0 до 9) для каждой позиции хромосомы, которая
укажите, нужно ли фильтровать сайт в этой позиции. Пример файла маски
будет выглядеть так:

>1
0000011111222 ...

В этом примере сайты в файле VCF, расположенные в пределах первых 5 баз
начало хромосомы 1 будет сохранено, тогда как сайты в положении 6 и далее будут
отфильтрован. Целочисленное пороговое значение, определяющее, фильтруются ли сайты или нет,
устанавливается с помощью опции --mask-min, которая по умолчанию равна 0. Хромосомы, содержащиеся в
файл маски должен быть отсортирован в том же порядке, что и файл VCF. Параметр --mask
используется для указания файла маски, который будет использоваться, тогда как параметр --invert-mask может
использоваться для указания файла маски, который будет инвертирован перед применением.

Частное Лицо Фильтры
--indv
Укажите человека, который будет включен в анализ. Этот вариант можно использовать несколько раз.
раз, чтобы указать несколько человек.

--хранить
Предоставьте файл, содержащий список лиц, которые будут включены в последующий анализ.
Каждый индивидуальный идентификатор (как определено в заголовке VCF) должен быть включен в
отдельная строка.

--remove-indv
Укажите человека, которого нужно исключить из анализа. Этот вариант можно использовать
несколько раз, чтобы указать несколько лиц. Если параметр --indv также
указано, то перед параметром --remove-indv выполняется параметр --indv.

--Удалить
Предоставьте файл, содержащий список лиц, которые нужно исключить из последующего анализа.
Каждый индивидуальный идентификатор (как определено в заголовке VCF) должен быть включен в
отдельная строка. Если используются обе опции --keep и --remove, то
Опция --keep выполняется перед опцией --remove.

--mon-indv-meanDP

--max-indv-meanDP
Рассчитайте средний охват на индивидуальной основе. Только лица с
покрытие в пределах диапазона, указанного этими опциями, включается в последующие
анализы.

--разум
Укажите минимальный порог скорости вызова для каждого человека.

- поэтапный
Сначала исключаются все особи, имеющие все нефазированные генотипы, а затем
исключает все сайты с нефазированными генотипами. Остальные данные, таким образом, состоят из
только поэтапных данных.

Генотип Фильтры
--remove-filter-geno-all

--remove-filter-geno
Первый вариант удаляет все генотипы с флагом ФИЛЬТР. Второй вариант может быть
используется для исключения генотипов с определенным флагом фильтра.

--minGQ
Исключить все генотипы с качеством ниже порога, указанного в этой опции
(ГК).

--minDP
Исключить все генотипы с глубиной секвенирования ниже указанной в этом параметре
(ДП)

Результат Показатели
--частота

--счетов

--freq2

--counts2
Выводит информацию о частоте для каждого сайта. --Freq выводит частоту аллеля в
файл с суффиксом '.frq'. Параметр --counts выводит аналогичный файл с
суффикс '.frq.count', который содержит исходное количество аллелей на каждом сайте. Параметр --freq2
и параметры --count2 используются для подавления информации об аллелях в выходном файле. В
В этом случае порядок частот / счетчиков зависит от нумерации в файле VCF.

--глубина
Создает файл, содержащий среднюю глубину для каждого человека. Этот файл имеет суффикс
'.idepth'.

- глубина участка

- средняя глубина участка
Создает файл, содержащий глубину для каждого сайта. Параметр --site-depth выводит
глубина для каждого сайта, суммированная по отдельным лицам. Этот файл имеет суффикс .ldepth.
Аналогично, --site-mean-depth выводит среднюю глубину для каждого сайта, а
выходной файл имеет суффикс '.ldepth.mean'.

--гено-глубина
Создает (возможно, очень большой) файл, содержащий глубину для каждого генотипа в
файл VCF. Отсутствующим записям присваивается значение -1. У файла есть суффикс
'.gdepth'.

--сайт-качество
Создает файл, содержащий качество SNP для каждого сайта, как указано в столбце QUAL.
файла VCF. Этот файл имеет суффикс ".lqual".

--хет Вычисляет степень гетерозиготности для каждого человека. В частности,
коэффициент инбридинга F оценивается для каждой особи с использованием метода
моменты. У результирующего файла есть суффикс «.het».

- твердый
Сообщает p-значение для каждого сайта из теста равновесия Харди-Вайнберга (как определено
Виггинтона, Катлера и Абекасиса (2005)). Результирующий файл (с суффиксом '.hwe')
также содержит наблюдаемое количество гомозигот и гетерозигот и
соответствующие ожидаемые числа под HWE.

--отсутствует
Создает два файла, сообщающих об отсутствии для каждого отдельного пользователя и для каждого сайта.
основание. Оба файла имеют суффиксы «.imiss» и «.lmiss» соответственно.

--hap-r2

--geno-r2

--ld-окно

--ld-окно-bp

--мин-r2
Эти параметры используются для отчета статистики неравновесия по сцеплению (LD) как
резюмируется статистикой r2. Параметр --hap-r2 сообщает vcftools о необходимости вывода
файл, сообщающий статистику r2 с использованием поэтапных гаплотипов. Это традиционный
Измерение LD часто указывается в литературе по популяционной генетике. Если поэтапно
гаплотипы недоступны, тогда можно использовать параметр --geno-r2, который вычисляет
квадрат коэффициента корреляции между генотипами, кодируемыми как 0, 1 и 2, для
представляют количество нереференсных аллелей у каждого человека. Это тоже самое
как показатель LD, сообщенный PLINK. Версия гаплотипа выводит файл с
суффикс '.hap.ld', тогда как версия генотипа выводит файл с суффиксом
'.geno.ld'. Версия гаплотипа подразумевает параметр --phased.

Параметр --ld-window определяет максимальное разделение SNP для расчета
LD. Аналогичным образом, параметр --ld-window-bp может использоваться для определения максимального физического
разделение SNP, включенных в расчет LD. Наконец, --min-r2 устанавливает
минимальное значение для r2, ниже которого статистика LD не сообщается.

--SNPдлотность
Вычисляет количество и плотность SNP в ячейках размера, определенного этой опцией.
Полученный выходной файл имеет суффикс .snpden.

--ЦТВ
Вычисляет коэффициент перехода / трансверсии в ячейках с размером, определенным этим
вариант. Полученный выходной файл имеет суффикс ".TsTv". Резюме также
поставляется в файле с суффиксом '.TsTv.summary'.

--ФИЛЬТР-сводка
Создает сводку количества SNP и отношения Ts / Tv для каждой категории ФИЛЬТРА.
Выходной файл имеет суффикс .FILTER.summary.

--отфильтрованные-сайты
Создает два файла со списком сайтов, которые были оставлены или удалены после фильтрации. В
первый файл с суффиксом '.kept.sites' перечисляет сайты, которые хранятся в vcftools после фильтров.
были применены. Второй файл с расширением .removed.sites содержит список сайтов.
удаляется примененными фильтрами.

- синглтоны
Эта опция создаст файл с подробным описанием расположения синглтонов и
отдельные
дуплетоны (т.е. SNP, где минорный аллель встречается только у одного человека и
этот человек является гомозиготным по этому аллелю). Выходной файл имеет суффикс
'.singletons'.

--сайт-пи

- окно-пи
Эти параметры используются для оценки уровней нуклеотидного разнообразия. Первый вариант
делает это для каждого сайта, а выходной файл имеет суффикс «.sites.pi». В
второй вариант вычисляет нуклеотидное разнообразие в окнах с размером окна
определено в аргументе опции. Вывод для этой опции имеет суффикс
'.windowed.pi'. Оконная версия требует поэтапных данных, и, следовательно, использование этого
option подразумевает параметр --phased.

Результат in Другие контрактные услуги Форматы
--O12 Эта опция выводит генотипы в виде большой матрицы. Производятся три файла. В
во-первых, с суффиксом '.012', содержит генотипы каждого человека на отдельном
линия. Генотипы представлены как 0, 1 и 2, где число означает, что
количество нереференсных аллелей. Отсутствующие генотипы обозначаются -1. В
во втором файле с суффиксом '.012.indv' подробно описаны лица, включенные в основной
файл. Третий файл с суффиксом '.012.pos' описывает местоположения сайтов, включенных в
основной файл.

- ИМПУТ
Эта опция выводит поэтапные гаплотипы в формате справочной панели IMPUTE. Как IMPUTE
требует поэтапных данных, использование этой опции также подразумевает --phased. Бесфазный
поэтому исключены индивидуумы и генотипы. Только биаллельные сайты
включены в вывод. Использование этой опции генерирует три файла. IMPUTE
файл haplotype имеет суффикс '.impute.hap', а файл легенды IMPUTE имеет
суффикс '.impute.hap.legend'. Третий файл с суффиксом '.impute.hap.indv',
подробно описывает людей, включенных в файл гаплотипа, хотя этот файл не
нужен IMPUTE.

--ldhat

--ldhat-geno
Эти параметры выводят данные в формате LDhat. Для использования этих опций также требуется
Параметр --chr используется. Параметр --ldhat выводит только поэтапные данные, поэтому
также подразумевает - фазовый, что приводит к тому, что отдельные особи и генотипы не являются фазовыми.
Исключенный. В качестве альтернативы опция --ldhat-geno обрабатывает все данные как
unphased, и поэтому файлы LDhat выводятся в генотипе / нефазированном формате. В любом
случае создаются два файла с суффиксами '.ldhat.sites' и '.ldhat.locs',
которые соответствуют входным файлам LDhat 'sites' и 'locs' соответственно.

--БИГЛ-ГЛ
Эта опция выводит информацию о вероятности генотипа для ввода в BEAGLE.
программа. Эта опция требует, чтобы файл VCF содержал тег FORMAT GL, который может
обычно выводятся вызывающими устройствами SNP, такими как GATK. Для использования этой опции требуется
хромосома должна быть указана с помощью опции --chr. Результирующий выходной файл (с
суффикс '.BEAGLE.GL') содержит вероятности генотипа для двуаллельных сайтов и является
подходит для ввода в BEAGLE через аргумент like =.

- ссылка
Эта опция выводит данные генотипа в формате PLINK PED. Генерируются два файла,
с суффиксами .ped и .map. Обратите внимание, что будут выведены только биаллельные локусы.
Более подробную информацию об этих файлах можно найти в документации PLINK.

Примечание. Этот параметр может быть очень медленным для больших наборов данных. Использование опции --chr для
рекомендуется разделить набор данных.

--плинк-тпед
Опция --plink выше может быть очень медленной для больших наборов данных. Альтернатива
что может быть значительно быстрее, это вывод в транспонированном формате PLINK.
Этого можно добиться с помощью параметра --plink-tped, который создает два файла с
суффиксы .tped и .tfam.

- перекодировать
Параметр --recode используется для создания файла VCF из входного файла VCF, имеющего
применил параметры, указанные пользователем. Выходной файл имеет суффикс
'.recode.vcf'.

По умолчанию поля INFO удаляются из выходного файла, так как значения INFO
могут быть признаны недействительными из-за перекодирования (например, может потребоваться общая глубина
пересчитывается при удалении особей). Эта функция по умолчанию может быть
переопределено с помощью --keep-INFO вариант, где определяет
Клавиша INFO для сохранения в выходном файле. Флаг --keep-INFO можно использовать несколько раз.
раз. В качестве альтернативы можно использовать параметр --keep-INFO-all, чтобы сохранить всю ИНФОРМАЦИЮ.
полей.

Прочее
--extract-ФОРМАТ-информация
Извлечь информацию из полей генотипа в файле VCF, относящуюся к указанному
FORMAT идентификатор. Например, использование параметра --extract-FORMAT-info GT приведет к
извлеките все записи GT (т. е. генотип). В результирующем выходном файле
суффикс '. .ФОРМАТ'.

--получить информацию
Эта опция используется для извлечения информации из поля INFO в файле VCF. В
аргумент указывает тег INFO, который нужно извлечь, и параметр может быть
используется несколько раз для извлечения нескольких записей INFO. Полученный файл,
с суффиксом '.INFO', содержит необходимую информацию INFO в виде разделенных табуляцией
стол. Например, чтобы извлечь флаги NS и DB, можно использовать команду:

vcftools --vcf file1.vcf --get-INFO NS --get-INFO БД

VCF Файл сравнение Опции
Опции сравнения файлов в настоящее время изменяются и, вероятно, содержат ошибки. если ты
обнаружите ошибку, сообщите об этом. Обратите внимание, что фильтры на уровне генотипа не поддерживаются в этих
настройки.

--diff

--gzdiff
Выберите файл VCF для сравнения с файлом, указанным параметром --vcf.
Выводит два файла с описанием сайтов и отдельных лиц, общих / уникальных для каждого.
файл. Эти файлы имеют суффиксы .diff.sites_in_files и
'.diff.indv_in_files' соответственно. Версия --gzdiff может использоваться для чтения
сжатые файлы VCF.

--diff-site-диссонанс
Используется вместе с параметром --diff для расчета несоответствия на сайте по
основа сайта. Полученный выходной файл имеет суффикс «.diff.sites».

--diff-indv-несогласие
Используется вместе с параметром --diff для расчета несоответствия для каждого пользователя.
индивидуальная основа. Полученный выходной файл имеет суффикс «.diff.indv».

--diff-disordance-matrix
Используется вместе с параметром --diff для вычисления матрицы несогласованности. Этот
опция работает только с биаллельными локусами с совпадающими аллелями, которые присутствуют в
оба файла. Полученный выходной файл имеет суффикс .diff.discordance.matrix.

--diff-переключатель-ошибка
Используется вместе с параметром --diff для расчета ошибок фазирования.
(в частности, «ошибки переключения»). Эта опция генерирует два выходных файла, описывающих
ошибки переключения, обнаруженные между сайтами, и средняя ошибка переключения на человека.
У этих двух файлов есть суффиксы .diff.switch и .diff.indv.switch.
соответственно.

Опции все еще in разработка
Следующие параметры еще не доработаны, вероятно, содержат ошибки и, скорее всего,
измениться в будущем.

--fst

--gzfst
Вычислить FST для пары файлов VCF, при этом второй файл определяется этим
вариант. FST в настоящее время рассчитывается по формуле, описанной в
дополнительный материал к статье Phase I HapMap. В настоящее время только попарный FST
расчеты поддерживаются, хотя это, вероятно, изменится в будущем. В
Параметр --gzfst может использоваться для чтения сжатых файлов VCF.

- ЛРОХ Определите длительные периоды гомозиготности.

- родство
Вывод статистики индивидуального родства.

Используйте vcftools онлайн с помощью сервисов onworks.net


Бесплатные серверы и рабочие станции

Скачать приложения для Windows и Linux

  • 1
    Жар-птица
    Жар-птица
    СУБД Firebird предлагает функции ANSI SQL
    & работает на Linux, Windows и
    несколько Unix-платформ. Функции
    отличный параллелизм и производительность
    & сила...
    Скачать Firebird
  • 2
    KompoZer
    KompoZer
    KompoZer — это wysiwyg HTML-редактор, использующий
    кодовая база Mozilla Composer. В виде
    Разработка Нву остановлена
    в 2005 году KompoZer исправляет множество ошибок и
    добавляет ф...
    Скачать Композер
  • 3
    Бесплатная загрузка манги
    Бесплатная загрузка манги
    Free Manga Downloader (FMD) — это
    приложение с открытым исходным кодом, написанное на
    Object-Pascal для управления и
    скачивание манги с разных сайтов.
    Это зеркало...
    Скачать бесплатный загрузчик манги
  • 4
    UNetbootin
    UNetbootin
    UNetbootin позволяет создавать загрузочные
    Живые USB-накопители для Ubuntu, Fedora и
    другие дистрибутивы Linux без
    запись компакт-диска. Работает на Windows, Linux,
    и ...
    Скачать UNetbootin
  • 5
    Долибарр ERP - CRM
    Долибарр ERP - CRM
    Dolibarr ERP - CRM проста в использовании
    Пакет программного обеспечения ERP и CRM с открытым исходным кодом
    (запускается с веб-сервером php или как
    автономное программное обеспечение) для бизнеса,
    фундамент...
    Скачать Dolibarr ERP - CRM
  • 6
    Клиент SQuirreL SQL
    Клиент SQuirreL SQL
    SQuirreL SQL Client - это графический SQL
    клиент, написанный на Java, который позволит
    вы, чтобы просмотреть структуру JDBC
    совместимая база данных, просматривайте данные в
    столы ...
    Скачать SQL-клиент SQuirreL
  • Больше »

Команды Linux

Ad