АнглийскийФранцузскийИспанский

Ad


Значок OnWorks

bcftools - Онлайн в облаке

Запустите bcftools в бесплатном хостинг-провайдере OnWorks через Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS

Это команда bcftools, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

ПРОГРАММА:

ИМЯ


samtools - Утилиты для формата Sequence Alignment / Map (SAM)

bcftools - Утилиты для двоичного формата вызовов (BCF) и VCF

СИНТАКСИС


представление samtools -bt ref_list.txt -o aln.bam aln.sam.gz

samtools сортировка aln.bam aln.sorted

индекс samtools aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools просмотр aln.sorted.bam chr2: 20,100,000-20,200,000

samtools объединить out.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

samtools pigup -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3: 1,000-2,000 дюймов1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

индекс bcftools в .bcf

bcftools просмотреть in.bcf chr2: 100-200> out.vcf

Просмотр bcftools -Nvm0.99 in.bcf> out.vcf 2> out.afs

ОПИСАНИЕ


Samtools - это набор утилит, управляющих выравниванием в формате BAM. Он импортирует
из формата SAM (Sequence Alignment / Map) и экспорт в него, выполняет сортировку, объединение и
индексация и позволяет быстро извлекать чтения в любых регионах.

Samtools предназначен для работы с потоком. Считает входной файл `- 'стандартным
input (stdin) и выходной файл `- 'в качестве стандартного вывода (stdout). Несколько команд могут
таким образом можно комбинировать с конвейерами Unix. Samtools всегда выводит предупреждения и сообщения об ошибках в
стандартный вывод ошибок (stderr).

Samtools также может открывать файл BAM (не SAM) на удаленном FTP- или HTTP-сервере, если
Имя файла BAM начинается с ftp: // или http: //. Samtools проверяет текущую рабочую
каталог для индексного файла и загрузит индекс в случае его отсутствия. Samtools не делает
получить весь файл выравнивания, если этого не попросят.

САМОТУЛС КОМАНДЫ И ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ, НЕ ВКЛЮЧЕННЫЕ В ПАКЕТ


view просмотр samtools [-bchuHS] [-t in.refList] [-o output] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l библиотека] [-r группа чтения] [-R rgFile] | [регион1
[...]]

Извлеките / распечатайте все или частичные выравнивания в формате SAM или BAM. Если нет региона
указано, все выравнивания будут напечатаны; иначе только выравнивания
будут выведены перекрывающиеся указанные регионы. Выравнивание может быть дано
несколько раз, если он перекрывает несколько регионов. Регион может быть представлен,
например, в следующем формате: `chr2 '(весь chr2),` chr2: 1000000'
(регион, начинающийся с 1,000,000 бп) или `chr2: 1,000,000-2,000,000 '(регион между
1,000,000 2,000,000 1 и XNUMX XNUMX XNUMX б.п., включая конечные точки). Координата отсчитывается от XNUMX.

ОПЦИИ:

-b Вывод в формате BAM.

-f INT Выводить только выравнивания со всеми битами в INT, присутствующими в поле FLAG.
INT может быть шестнадцатеричным в формате / ^ 0x [0-9A-F] + / [0]

-F INT Пропустить выравнивание с битами, присутствующими в INT [0]

-h Включите заголовок в вывод.

-H Выводить только заголовок.

-l STR Выводить только чтения в библиотеке STR [null]

-o ФАЙЛОВ Выходной файл [stdout]

-q INT Пропустить выравнивания с MAPQ меньше INT [0]

-r STR Только чтение вывода в группе чтения STR [null]

-R ФАЙЛОВ Выходные чтения в группах чтения, перечисленных в ФАЙЛОВ [значение NULL]

-s FLOAT Доля шаблонов / пар для подвыборки; целая часть лечится
в качестве начального числа для генератора случайных чисел [-1]

-S Ввод в SAM. Если строки заголовка @SQ отсутствуют, `-t ' опция
требуется.

-c Вместо того, чтобы печатать выравнивания, просто подсчитайте их и распечатайте
общее число. Все параметры фильтра, например `-f ', `-F ' и `-q ' , Являются
учтено.

-t ФАЙЛОВ Этот файл разделен табуляцией. Каждая строка должна содержать название ссылки
и длина ссылки, по одной строке для каждой отдельной ссылки;
дополнительные поля игнорируются. Этот файл также определяет порядок
ссылочные последовательности в сортировке. Если вы запустите `samtools faidx ',
результирующий индексный файл .fai можно использовать как это
.

-u Вывести несжатый BAM. Эта опция экономит время, потраченное на
сжатие / распаковка и поэтому предпочтительнее, когда вывод
передан другой команде samtools.

TView самтулс твью [-p chr: pos] [-s STR] [-d дисплей] [ref.fasta]

Программа просмотра выравнивания текста (на основе библиотеки ncurses). В программе просмотра нажмите `? '
для получения справки и нажмите `g ', чтобы проверить начало выравнивания с области в формате
например chr10: 10,000,000 или = 10,000,000 при просмотре той же ссылки
последовательность.

Опции:

-d дисплей Вывести как (H) tml или (C) urses или (T) ext

-p chr: pos Перейти прямо к этой позиции

-s STR Отображать только чтения из этого образца или группы чтения

скопление Samtools mpileup [-EBugp] [-C capQcoef] [-r Редж] [-f ин.фа] [-l список] [-M
capMapQ] [-Q minBaseQ] [-q minMapQ] дюйм бам [in2.бам [...]]

Сгенерируйте BCF или pileup для одного или нескольких файлов BAM. Записи о выравнивании
сгруппированы по образцам идентификаторов в строках заголовка @RG. Если идентификаторы образцов
отсутствует, каждый входной файл рассматривается как один образец.

В формате pileup (без -uor-g), каждая линия представляет геномную позицию,
состоящий из имени хромосомы, координаты, справочной базы, считывания баз, считывания
качества и качества сопоставления карт. Информация о совпадении, несовпадении,
indel, strand, качество отображения, а также начало и конец чтения кодируются в
базовый столбец чтения. В этом столбце точка обозначает совпадение со ссылкой.
основание на прямой нити, запятая для совпадения на обратной нити, '>' или
'<' для ссылочного пропуска, 'ACGTN' для несоответствия в прямой цепи и
acgtn - несоответствие на обратной нити. Шаблон `\ + [0-9] + [ACGTNacgtn] + '
указывает на вставку между этой ссылочной позицией и следующей
исходное положение. Длина вставки задается целым числом в
шаблон, за которым следует вставленная последовательность. Аналогично узор
`- [0-9] + [ACGTNacgtn] + 'означает удаление из ссылки. Удаленный
базы будут представлены как `* 'в следующих строках. Также в базе чтения
В столбце символ `^ 'отмечает начало чтения. ASCII символа
следующий за `^ 'минус 33 дает качество отображения. Символ `$ 'отмечает конец
прочитанный сегмент.

вход Опции:

-6 Предположим, что качество находится в кодировке Illumina 1.3+. -A Не пропускать
аномальные пары чтения в вариантном вызове.

-B Отключить вероятностное выравнивание для вычисления базы
качество центровки (BAQ). BAQ - это вероятность чтения по шкале Phred.
база смещена. Применение этой опции значительно снижает
ложные SNP, вызванные несогласованностью.

-b ФАЙЛОВ Список входных файлов BAM, по одному файлу в строке [null]

-C INT Коэффициент снижения качества отображения для чтений, содержащих
чрезмерные несовпадения. Учитывая чтение с вероятностью q по шкале phred
генерируется из отображаемой позиции, новое качество отображения
о sqrt ((INT-q) / INT) * INT. Нулевое значение отключает это
функциональность; если включено, рекомендуемое значение для BWA - 50. [0]

-d INT На позиции читать максимально INT читает на вход BAM. [250]

-E Расширенный расчет BAQ. Эта опция помогает повысить чувствительность, особенно при
MNP, но это может немного повлиять на специфику.

-f ФАЙЛОВ Ассоциация Faidx-индексированный справочный файл в формате FASTA. Файл может быть
необязательно сжатый разархивировать. [нулевой]

-l ФАЙЛОВ BED или файл списка позиций, содержащий список регионов или участков, где
pileup или BCF должны быть сгенерированы [null]

-q INT Минимальное качество сопоставления для используемой трассы [0]

-Q INT Минимальное качество основания для рассмотрения [13]

-r STR Создавать только pileup в регионе STR [все сайты]

Результат Опции:

-D Вывод на выборку глубины чтения

-g Вычислить вероятности генотипа и вывести их в двоичном формате вызова
(БКФ).

-S Выходное значение P-значение смещения цепи по шкале Phred

-u Похожий на что -g за исключением того, что на выходе получается несжатый BCF, который
предпочтительнее для трубопроводов.

Опции для Генотип Вероятность Вычисление (для -g or -у):

-e INT Вероятность ошибки секвенирования при увеличении промежутка в масштабе Phred. Сокращение INT
приводит к более длинным инделкам. [20]

-h INT Коэффициент для моделирования ошибок гомополимеров. Учитывая l-долго
гомополимерный прогон, ошибка секвенирования меньше размера s моделируется
as INT*s/l. [100]

-I Не звоните в INDEL

-L INT Пропустите вызов INDEL, если средняя глубина выборки выше INT.
[250]

-o INT Вероятность ошибки при открытии пробелов в масштабе Phred. Сокращение INT приводит
для дополнительных вызовов. [40]

-p Примените пороги -m и -F для каждого образца, чтобы повысить чувствительность
звонит. По умолчанию оба параметра применяются к показаниям, объединенным со всех
образцы.

-P STR Список платформ, разделенный запятыми (определяется @ RG-PL) из которого
получены кандидаты в индел. Рекомендуется собирать индель
кандидаты из технологий секвенирования, которые имеют низкую частоту ошибок в индексе
такие как ИЛЛЮМИНА. [все]

читатель samtools reheader

Заменить заголовок в дюйм бам с заголовком в in.header.sam. Эта команда
намного быстрее, чем замена заголовка преобразованием BAM-> SAM-> BAM.

кошка samtools cat [-h header.sam] [-o out.bam] [...]

Объедините BAM. Словарь последовательностей каждого входного BAM должен быть идентичным,
хотя эта команда не проверяет это. Эта команда использует аналогичный прием
читатель что обеспечивает быструю конкатенацию BAM.

sort samtools sort [-nof] [-m maxMem]

Сортировать выравнивания по крайним левым координатам. Файл .bam будет создан.
Эта команда также может создавать временные файлы .% d.bam когда весь
выравнивание не может быть помещено в память (управляется опцией -m).

ОПЦИИ:

-o Выведите окончательное выравнивание на стандартный вывод.

-n Сортировать по прочитанным именам, а не по хромосомным координатам

-f Используйте как полный выходной путь и не добавляйте .бам суффикс.

-m INT Примерно максимально необходимая память. [500000000]

слияние samtools merge [-nur1f] [-h inh.sam] [-R reg]
[...]

Объедините несколько отсортированных выравниваний. Справочные списки заголовков всех входных
Файлы BAM и заголовки @SQ инх.сам, если таковые имеются, все должны относиться к одному и тому же
набор эталонных последовательностей. Список ссылок заголовка и (если он не переопределен
-h) `@ 'заголовки in1.бам будет скопировано в аут.бам, и заголовки других
файлы будут проигнорированы.

ОПЦИИ:

-1 Используйте уровень сжатия zlib 1 для сжатия вывода

-f Принудительно перезаписать выходной файл, если он есть.

-h ФАЙЛОВ Используйте строки ФАЙЛОВ как заголовки `@ ', которые нужно скопировать в аут.бам, заменяя
любые строки заголовка, которые иначе были бы скопированы из in1.бам, (ФАЙЛОВ is
фактически в формате SAM, хотя любые записи о выравнивании, которые он может содержать, являются
игнорируется.)

-n Входные выравнивания сортируются по именам чтения, а не по хромосомам.
координаты

-R STR Объединить файлы в указанном регионе, обозначенном значком STR [значение NULL]

-r Прикрепите тег RG к каждой трассе. Значение тега выводится из файла
имена.

-u Несжатый выход BAM

индекс индекс samtools

Выравнивание с сортировкой по индексу для быстрого произвольного доступа. Индексный файл .bai будет
создано.

idxstats samtools idxstats

Получите и распечатайте статистику в индексном файле. Выходные данные разделены табуляцией
каждая строка, состоящая из имени ссылочной последовательности, длины последовательности, # отображенных чтений
и # несопоставленных чтений.

Faidx Samtools Faidx [регион1 [...]]

Индексируйте ссылочную последовательность в формате FASTA или извлеките подпоследовательность из проиндексированных
эталонная последовательность. Если регион не указан, Faidx проиндексирует файл и
Создайте .fai на диске. Если регионы указаны, подпоследовательности
будет извлечен и напечатан на стандартный вывод в формате FASTA. Входной файл может
быть сжатым в РАЗФ формат.

фиксированный товарищ samtools fixmate

Заполните координаты сопряжения, ISIZE и флаги сопряжения из отсортированного по имени
выравнивание.

rmdup samtools rmdup [-sS]

Удалите потенциальные дубликаты ПЦР: если несколько пар чтения имеют идентичные внешние
координаты, сохраните только пару с наивысшим качеством отображения. В паре-
конец режима, эта команда ТОЛЬКО работает с ориентацией FR и требует ISIZE
правильно поставил. Это не работает для непарных чтений (например, два конца сопоставлены с
разные хромосомы или сиротские чтения).

ОПЦИИ:

-s Удалите дубликаты для односторонних чтений. По умолчанию команда работает для
парный конец только для чтения.

-S Рассматривайте парные и односторонние чтения.

успокоенный Samtools успокоился [-EeubSr] [-C capQcoef]

Создайте тег MD. Если тег MD уже присутствует, эта команда выдаст
предупреждение, если сгенерированный тег MD отличается от существующего тега. Выход SAM
по умолчанию.

ОПЦИИ:

-A При совместном использовании с -r эта опция перезаписывает исходную базу
качество.

-e Преобразуйте базу чтения в =, если она идентична выровненной ссылке.
база. Вызывающая программа Indel в настоящий момент не поддерживает базы =.

-u Вывод несжатого BAM

-b Выходной сжатый BAM

-S Вход - SAM со строками заголовка.

-C INT Коэффициент, ограничивающий качество отображения плохо отображаемых чтений. Увидеть
наложение для подробностей. [0]

-r Вычислить тег BQ (без -A) или ограничить базовое качество с помощью BAQ (с -A).

-E Расширенный расчет BAQ. Эта опция торгует специфичностью для
чувствительность, хотя эффект незначительный.

мишень samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
ref]

Эта команда определяет целевые регионы, проверяя непрерывность чтения.
глубины, вычисляет гаплоидные согласованные последовательности целей и выводит SAM с
каждая последовательность соответствует цели. Когда вариант -f используется, BAQ будет
применяемый. Эта команда только предназначен для вырезания клонов фосмид из фосмид
секвенирование пула [Ref. Kitzman et al. (2010)].

фаза фаза samtools [-AF] [-k len] [префикс -b] [-q minLOD] [-Q minBaseQ]

Вызов и фаза гетерозиготных SNP. ОПЦИИ:

-A Падение читает с неоднозначной фазой.

-b STR Префикс вывода BAM. Когда используется эта опция, чтения фазы 0 будут
сохранено в файле STR.0.bam и фаза 1 читается в STR.1.bam. Фаза неизвестна
чтения будут случайным образом назначены одному из двух файлов. Химерик читает
с ошибками переключения будут сохранены в STR.chimeric.bam. [нулевой]

-F Не пытайтесь исправить химерные чтения.

-k INT Максимальная длина для локальной фазировки. [13]

-q INT Минимальный уровень детализации по шкале Phred для вызова гетерозиготы. [40]

-Q INT Минимальное базовое качество для использования в хет-звонках. [13]

БКФТУЛС КОМАНДЫ И ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ, НЕ ВКЛЮЧЕННЫЕ В ПАКЕТ


view bcftools view [-AbFGNQSucgv] [-D seqDict] [-l listLoci] [-s списокОбразец] [-i
разрывSNPratio] [-t мутрейт] [-p варТрес] [-m варТрес] [-P предшествующий] [-1 нГрупп1]
[-d минфрак] [-U nПермь] [-X пермьThres] [-T триоТип] in.bcf [область]

Преобразование между BCF и VCF, вызов вариантов кандидатов и оценка аллеля
частот.

Ввод, вывод Опции:

-A Сохраните все возможные альтернативные аллели на вариантных сайтах. По умолчанию,
команда просмотра отбрасывает маловероятные аллели.

-b Вывод в формате BCF. По умолчанию - VCF.

-D ФАЙЛОВ Словарь последовательностей (список имен хромосом) для преобразования VCF-> BCF
[значение NULL]

-F Укажите, что PL сгенерирован r921 или ранее (порядок другой).

-G Скрыть всю индивидуальную информацию о генотипе.

-l ФАЙЛОВ Список сайтов, с которых выводится информация [все сайты]

-N Пропускать сайты, где поле REF не A / C / G / T

-Q Вывести формат правдоподобия QCALL

-s ФАЙЛОВ Список образцов для использования. Первый столбец входных данных дает образец
имена, а второй дает плоидность, которая может быть только 1 или 2. Когда
2-й столбец отсутствует, плоидность выборки принята равной 2. В
вывод, порядок образцов будет таким же, как в ФАЙЛОВ.
[значение NULL]

-S Вводится VCF вместо BCF.

-u Несжатый вывод BCF (принудительно -b).

Консенсус / вариант призвание Опции:

-c Вызов вариантов с использованием байесовского вывода. Эта опция автоматически
вызывает опцию -e.

-d FLOAT После появления -v используется, пропустите локусы, где доля проб, покрытых
читает ниже FLOAT. [0]

-e Выполнять только вывод максимального правдоподобия, включая оценку сайта
частота аллелей, тестирование равновесия Харди-Вайнберга и тестирование
ассоциации с LRT.

-g Вызов генотипов для каждого образца на вариантных сайтах (принудительно -c)

-i FLOAT Отношение частоты мутаций INDEL к SNP [0.15]

-m FLOAT Новая модель для улучшенного мультиаллельного и редкого вызова. Другой
Аллель ALT принимается, если P (chi ^ 2) LRT превышает порог FLOAT.
Параметр кажется надежным, и фактическое значение обычно не соответствует действительности.
сильно влияют на результат; хорошее значение для использования - 0.99. Это
рекомендуемый метод вызова. [0]

-p FLOAT Сайт считается вариантом, если P (ref | D)

-P STR Частотный спектр предшествующего или исходного аллеля. Если STR может быть полный, условие2,
плоский или файл, состоящий из вывода ошибок из предыдущего варианта
вызов, беги.

-t FLOAT Масштабируемая скорость мутации для вызова варианта [0.001]

-T STR Включить вызов пары / тройки. Для звонка трио, опция -s Обычно
необходимо было применить для настройки членов трио и их упорядочивания.
В прилагаемом файле к опции -s, первый образец должен быть
ребенок, второй отец и третий мать. Действительный
значения STR "пара", "триоавто", "триокс" и "триоксы", где
пара вызывает различия между двумя входными сэмплами, а trioxd
(`trioxs ') указывает, что вход от Х-хромосомы не-PAR
регионы и ребенок женского пола (мужского пола). [нулевой]

-v Только сайты с вариантами вывода (принудительно -c)

контраст призвание и Объединение Пусконаладка Опции:

-1 INT Количество образцов группы-1. Эта опция используется для разделения
образцы на две группы для контрастного вызова SNP или теста ассоциации.
Когда используется эта опция, будет выведена следующая ИНФОРМАЦИЯ О VCF:
PC2, PCHI2 и QCHI2. [0]

-U INT Количество перестановок для ассоциативного теста (эффективно только с -1)
[0]

-X FLOAT Выполняйте перестановки только для P (chi ^ 2) -U)
[0.01]

индекс bcftools индекс in.bcf

Индексируйте отсортированный BCF для произвольного доступа.

кошка bcftools кошка in1.bcf [in2.bcf [...]]]

Объедините файлы BCF. Входные файлы должны быть отсортированы и иметь
идентичные образцы появляются в том же порядке.

SAM ФОРМАТ


Формат Sequence Alignment / Map (SAM) разделен табуляцией. Помимо строк заголовков, которые
начинаются с символа `@ ', каждая строка выравнивания состоит из:

┌────┬───────┬────────────────────────────────────── ───────────────────────
СедлоПоискОписание
├────┼───────┼────────────────────────────────────── ───────────────────────
│ 1 │ QNAME │ Шаблон запроса / ИМЯ пары │
│ 2 │ ФЛАГ │ побитовый ФЛАГ │
│ 3 │ RNAME │ Ссылочная последовательность NAME │
│ 4 │ POS │ Крайняя левая позиция на основе 1 / координата обрезанной последовательности │
│ 5 │ MAPQ │ Качество отображения (в масштабе Phred) │
│ 6 │ CIAGR │ расширенная строка CIGAR │
│ 7 │ MRNM │ Сопряжение Ссылочная последовательность NaMe (`= ', если то же, что и RNAME) │
│ 8 │ MPOS │ Mate POSistion на основе 1 │
│ 9 │ TLEN │ предполагаемая ДЛИНА шаблона (размер вставки) │
│10 │ SEQ │ запрос SEQuence на той же цепи, что и эталон │
│11 │ КАЧЕСТВО │ КАЧЕСТВО запроса (ASCII-33 дает базовое качество Phred) │
│12 + │ OPT │ переменная ДОПОЛНИТЕЛЬНЫЕ поля в формате TAG: VTYPE: VALUE │
└────┴───────┴─────────────────────────────────────── ───────────────────────

Каждый бит в поле FLAG определяется как:

┌───────┬─────┬───────────────────────────────────── ────────────────┐
ФлагChrОписание
├───────┼─────┼───────────────────────────────────── ───────────────┤
│0x0001 │ p │ чтение попарно в последовательности │
│0x0002 │ P │ чтение отображается в правильную пару │
│0x0004 │ u │ сама последовательность запроса не отображается │
│0x0008 │ U │ помощник не отображается │
│0x0010 │ r │ цепочка запроса (1 для обратного) │
│0x0020 │ R │ прядь ответной │
│0x0040 │ 1 │ чтение - первое чтение в паре │
│0x0080 │ 2 │ чтение - второе чтение в паре │
│0x0100 │ s │ расклад не первичный │
│0x0200 │ f при чтении не удается проверить качество платформы / поставщика │
│0x0400 │ d │ чтение - ПЦР или оптический дубликат │
└───────┴─────┴────────────────────────────────────── ───────────────┘
где второй столбец дает строковое представление поля FLAG.

VCF ФОРМАТ


Variant Call Format (VCF) - это формат с разделителями TAB, в котором каждая строка данных состоит из
следующие поля:

┌────┬────────┬───────────────────────────────────── ────────────────────────────
СедлоПоискОписание
├────┼────────┼───────────────────────────────────── ────────────────────────────
│ 1 │ ХРОМ │ Имя ХРОМосомы │
│ 2 │ POS │ крайняя левая позиция варианта │
│ 3 │ ID │ уникальный идентификатор варианта
│ 4 │ REF │ аллель REFerence │
│ 5 │ ALT │ аллель (ы) ALTernate, разделенные запятой │
│ 6 │ КАЧЕСТВО │ вариант / ссылка КАЧЕСТВО │
│ 7 │ ФИЛЬТР │ ​​Фильтры применены │
│ 8 │ ИНФОРМАЦИЯ │ ИНФОРМАЦИЯ, относящаяся к варианту, разделенная точкой с запятой │
│ 9 │ ФОРМАТ │ ФОРМАТ полей генотипа, разделенных двоеточием (необязательно) │
│10 + │ ОБРАЗЕЦ │ Генотипы ОБРАЗЦА и информация для каждого образца (необязательно) │
└────┴────────┴───────────────────────────────────── ────────────────────────────

Следующая таблица дает ИНФОРМАЦИЯ теги, используемые samtools и bcftools.

┌──────┬───────────┬──────────────────────────────── ───────────────────────────────────────────────────── ─────────────────────
ТегФорматОписание
├──────┼───────────┼─────────────────────────────── ───────────────────────────────────────────────────── ─────────────────────
└──────┴───────────┴──────────────────────────────── ───────────────────────────────────────────────────── ─────────────────────

ПРИМЕРЫ


o Импортировать SAM в BAM, когда @SQ в заголовке присутствуют строки:

samtools view -bS aln.sam> aln.bam

If @SQ строки отсутствуют:

Samtools faidx ref.fa
просмотр samtools -bt ref.fa.fai aln.sam> aln.bam

в котором ref.fa.fai генерируется автоматически Faidx команда.

o Прикрепите RG тег при объединении отсортированных выравниваний:

perl -e 'печать
"@RG \ tID: ga \ tSM: hs \ tLB: ga \ tPL: Illumina \ n @ RG \ tID: 454 \ tSM: hs \ tLB: 454 \ tPL: 454 \ n" '> rg.txt
samtools merge -rh rg.txt merged.bam ga.bam 454.bam

Значение в RG Тег определяется именем файла, из которого происходит чтение. В этом
например, в объединенный.бам, читает из га.бам будет прикреплен RG: Z: ga, а читает из
454.бам будет прикреплен RG: Z: 454.

o Назовите SNP и короткие INDEL для одного диплоида:

samtools mpileup -ugf ref.fa aln.bam | просмотр bcftools -bvcg -> var.raw.bcf
bcftools просмотреть var.raw.bcf | vcfutils.pl varFilter -D 100> var.flt.vcf

Ассоциация -D опция varFilter контролирует максимальную глубину чтения, которая должна быть настроена на
примерно вдвое больше средней глубины чтения. Можно подумать о добавлении -С50 в скопление если отображение
качество переоценивается для считываний, содержащих чрезмерное количество несовпадений. Применяя эту опцию
обычно помогает BWA-короткий но не могут другие картографы.

o Создайте согласованную последовательность для одного диплоида:

samtools mpileup -uf ref.fa aln.bam | bcftools view -cg - | vcfutils.pl vcf2fq>
cns.fq

o Вызов соматических мутаций из пары образцов:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -> var.bcf

В выходном поле INFO, CLR дает соотношение Phred-log между вероятностью
обработка двух образцов независимо, и вероятность того, что генотип будет
быть идентичным. Этот CLR фактически является шкалой, измеряющей уверенность в соматическом
звонки. Чем выше, тем лучше.

o Call de novo и соматические мутации из семейного трио:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -s samples.txt ->
var.bcf

Файл образцы.txt должен состоять из трех строк, определяющих член и порядок
образцы (в порядке ребенок-отец-мать). Сходным образом, CLR дает Phred-журнал
отношение правдоподобия с ограничением трио и без него. ВСТ показывает наиболее вероятный
конфигурация генотипа без ограничения трио, и CGT дает наиболее вероятный
конфигурация генотипа, удовлетворяющая ограничению трио.

o Человек первой фазы:

samtools quietd -AEur aln.bam ref.fa | samtools префикс фазы -b -> phase.out

Ассоциация успокоенный команда используется для уменьшения числа ложных гетерозигот вокруг INDEL.

o Позвоните в SNP и короткие ссылки для нескольких диплоидов:

samtools mpileup -P ILLUMINA -ugf ref.fa * .bam | bcftools просмотр -bcvg -> var.raw.bcf
bcftools просмотреть var.raw.bcf | vcfutils.pl varFilter -D 2000> var.flt.vcf

Лица идентифицированы из SM теги в @РГ строки заголовка. Частные лица могут быть
объединены в один файл выравнивания; одно лицо также может быть разделено на несколько файлов.
Ассоциация -P опция указывает, что кандидаты в индел должны собираться только из групп чтения
с @ RG-PL тег установлен в ИЛЛЮМИНА. Сбор кандидатов на indel из упорядоченных чтений
с помощью технологии, склонной к indel, может повлиять на производительность вызова indel.

Обратите внимание, что есть новая модель вызова, которая может быть вызвана

Просмотр bcftools -m0.99 ...

который устраняет некоторые серьезные ограничения метода по умолчанию.

Для фильтрации наилучшие результаты кажутся достижимыми, если сначала применить СнпГап фильтр и
затем применив подход машинного обучения

vcf-annotate -f SnpGap = n
vcf фильтр ...

Оба можно найти в vcftools и htslib пакет (ссылки ниже).

o Получите частотный спектр аллелей (AFS) в списке сайтов от нескольких лиц:

samtools mpileup -Igf ref.fa * .bam> all.bcf
bcftools просмотр -bl sites.list all.bcf> sites.bcf
bcftools view -cGP cond2 sites.bcf> / dev / null 2> sites.1.afs
bcftools view -cGP sites.1.afs sites.bcf> / dev / null 2> sites.2.afs
bcftools view -cGP sites.2.afs sites.bcf> / dev / null 2> sites.3.afs
......

в котором сайты.список содержит список сайтов, каждая строка которого состоит из ссылки
название и позиция последовательности. Следующий bcftools Команды оценивают AFS по EM.

o Сбросить примененное выравнивание BAQ для других вызывающих SNP:

samtools quietd -bAr aln.bam> aln.baq.bam

Он добавляет и исправляет NM и MD теги одновременно. В успокоенный команда также приходит
с -C вариант, такой же, как и в наложение и скопление. Подайте заявку, если это поможет.

ОГРАНИЧЕНИЯ


o невыровненные слова, используемые в bam_import.c, bam_endian.h, bam.c и bam_aux.c.

o Samtools paired-end rmdup не работает для непарных чтений (например
сопоставлены с разными хромосомами). Если это вызывает беспокойство, используйте Picard's
MarkDuplicate, который правильно обрабатывает эти случаи, хотя и немного медленнее.

Используйте bcftools онлайн с помощью сервисов onworks.net


Бесплатные серверы и рабочие станции

Скачать приложения для Windows и Linux

  • 1
    Жар-птица
    Жар-птица
    СУБД Firebird предлагает функции ANSI SQL
    & работает на Linux, Windows и
    несколько Unix-платформ. Функции
    отличный параллелизм и производительность
    & сила...
    Скачать Firebird
  • 2
    KompoZer
    KompoZer
    KompoZer — это wysiwyg HTML-редактор, использующий
    кодовая база Mozilla Composer. В виде
    Разработка Нву остановлена
    в 2005 году KompoZer исправляет множество ошибок и
    добавляет ф...
    Скачать Композер
  • 3
    Бесплатная загрузка манги
    Бесплатная загрузка манги
    Free Manga Downloader (FMD) — это
    приложение с открытым исходным кодом, написанное на
    Object-Pascal для управления и
    скачивание манги с разных сайтов.
    Это зеркало...
    Скачать бесплатный загрузчик манги
  • 4
    UNetbootin
    UNetbootin
    UNetbootin позволяет создавать загрузочные
    Живые USB-накопители для Ubuntu, Fedora и
    другие дистрибутивы Linux без
    запись компакт-диска. Работает на Windows, Linux,
    и ...
    Скачать UNetbootin
  • 5
    Долибарр ERP - CRM
    Долибарр ERP - CRM
    Dolibarr ERP - CRM проста в использовании
    Пакет программного обеспечения ERP и CRM с открытым исходным кодом
    (запускается с веб-сервером php или как
    автономное программное обеспечение) для бизнеса,
    фундамент...
    Скачать Dolibarr ERP - CRM
  • 6
    Клиент SQuirreL SQL
    Клиент SQuirreL SQL
    SQuirreL SQL Client - это графический SQL
    клиент, написанный на Java, который позволит
    вы, чтобы просмотреть структуру JDBC
    совместимая база данных, просматривайте данные в
    столы ...
    Скачать SQL-клиент SQuirreL
  • Больше »

Команды Linux

Ad