англійськафранцузькаіспанська

Ad


Значок OnWorks

bcftools - Інтернет у хмарі

Запустіть bcftools у постачальнику безкоштовного хостингу OnWorks через Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS

Це команда bcftools, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн- емулятор Windows або онлайн-емулятор MAC OS

ПРОГРАМА:

ІМ'Я


samtools - Утиліти для формату Sequence Alignment/Map (SAM).

bcftools - Утиліти для формату двійкового виклику (BCF) і VCF

СИНТАКСИС


samtools view -bt ref_list.txt -o aln.bam aln.sam.gz

samtools sort aln.bam aln.sorted

індекс samtools aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools переглянути aln.sorted.bam chr2:20,100,000-20,200,000

samtools злиття out.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

samtools pileup -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

bcftools індекс in.bcf

bcftools переглянути in.bcf chr2:100-200 > out.vcf

bcftools view -Nvm0.99 in.bcf > out.vcf 2> out.afs

ОПИС


Samtools — це набір утиліт, які маніпулюють вирівнюваннями у форматі BAM. Воно імпортує
з та експортує до формату SAM (Sequence Alignment/Map), сортує, об’єднує та
індексація, і дозволяє швидко отримувати читання в будь-яких регіонах.

Samtools призначений для роботи на потоці. Він розглядає вхідний файл `-' як стандарт
введення (stdin) і вихідний файл `-' як стандартний вихід (stdout). Кілька команд можуть
таким чином можна поєднати з каналами Unix. Samtools завжди виводить попередження та повідомлення про помилки на
стандартний висновок помилки (stderr).

Samtools також може відкрити файл BAM (не SAM) на віддаленому сервері FTP або HTTP, якщо
Ім'я файлу BAM починається з `ftp://' або `http://'. Samtools перевіряє поточну роботу
каталог для файлу індексу та завантажить індекс у разі відсутності. Samtools ні
отримати весь файл вирівнювання, якщо його не попросять зробити це.

САМОСТІЙНІ ІНСТРУМЕНТИ КОМАНДИ І ВАРІАНТИ


вид перегляд samtools [-bchuHS] [-t in.refList] [-o вихід] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l бібліотека] [-r readGroup] [-R rgFile] | [регіон1
[...]]

Витягніть/роздрукуйте всі або допоміжні вирівнювання у форматі SAM або BAM. Якщо немає регіону
якщо вказано, будуть надруковані всі вирівнювання; інакше тільки вирівнювання
буде виведено перекриття вказаних регіонів. Може бути дано вирівнювання
кілька разів, якщо він перекриває кілька регіонів. Можна представити регіон,
наприклад, у такому форматі: `chr2' (весь chr2), `chr2:1000000'
(регіон, починаючи з 1,000,000 2 1,000,000 bp) або "chr2,000,000:XNUMX-XNUMX" (регіон між
1,000,000 2,000,000 1 і XNUMX XNUMX XNUMX bp, включаючи кінцеві точки). Координата заснована на XNUMX.

ВАРІАНТИ:

-b Виведення у форматі BAM.

-f INT Вивести лише вирівнювання з усіма бітами INT, присутніми в полі FLAG.
INT може бути у шістнадцятковому форматі /^0x[0-9A-F]+/ [0]

-F INT Пропустити вирівнювання з бітами, присутніми в INT [0]

-h Включіть заголовок у вихідні дані.

-H Вивести лише заголовок.

-l STR Тільки вихід читається в бібліотеці STR [null]

-o Фото Вихідний файл [stdout]

-q INT Пропустити вирівнювання з MAPQ, меншим за INT [0]

-r STR Лише вихід читає в групі читання STR [null]

-R Фото Вихідні дані зчитуються в групах читання, перелічених у Фото [нуль]

-s ПЛОС Частка шаблонів/пар до підвибірки; обробляється ціла частина
як насіння для генератора випадкових чисел [-1]

-S Вхід в SAM. Якщо рядки заголовка @SQ відсутні, `-t' опція
вимагається.

-c Замість того, щоб друкувати вирівнювання, лише порахуйте їх і надрукуйте
загальна кількість. Усі параметри фільтрів, наприклад `-f', `-F' та `-q' , Є
враховувати.

-t Фото Цей файл із роздільниками TAB. Кожен рядок повинен містити назву посилання
і довжину посилання, один рядок для кожного окремого посилання;
додаткові поля ігноруються. Цей файл також визначає порядок файлів
опорні послідовності при сортуванні. Якщо ви запустите `samtools faidx ',
отриманий індексний файл .fai можна використовувати як це
файлу.

-u Вивести нестиснений BAM. Цей варіант економить час, витрачений на
стиснення/декомпресії і, таким чином, є кращим, коли вихід є
передано до іншої команди samtools.

tvview samtools tview [-p Chr:pos] [-s STR] [-d дисплей] [ref.fasta]

Переглядач вирівнювання тексту (на основі бібліотеки ncurses). У засобі перегляду натисніть `?'
щоб отримати довідку, натисніть `g', щоб перевірити початок вирівнювання з області у форматі
наприклад `chr10:10,000,000' або `=10,000,000' під час перегляду того самого посилання
послідовність.

варіанти:

-d дисплей Вивести як (H)tml або (C)курси або (T)ext

-p Chr:pos Перейдіть безпосередньо до цієї позиції

-s STR Відображати лише читання з цього зразка або групи читання

mpileup samtools mpileup [-EBugp] [-C capQcoef] [-r Реджо] [-f в.фа] [-l список] [-M
capMapQ] [-Q minBaseQ] [-q minMapQ] in.bam [in2.bam [...]]

Створення BCF або накопичення для одного або кількох файлів BAM. Записи вирівнювання є
згруповані за зразками ідентифікаторів у рядках заголовка @RG. Якщо ідентифікатори зразка є
відсутній, кожен вхідний файл розглядається як один зразок.

У форматі pileup (без -uor-g), кожна лінія представляє геномну позицію,
що складається з назви хромосоми, координати, опорної бази, баз зчитування, читання
якості та якості відображення вирівнювання. Інформація про збіг, невідповідність,
indel, ланцюг, якість відображення, а також початок і кінець читання кодуються в
основний стовпець читання. У цьому стовпці крапка означає збіг із посиланням
основа на передньому пасмі, кома для збігу на зворотному пасмі, символ «>» або
'<' для опорного пропуску, 'ACGTN' для невідповідності на передньому пасмі та
`acgtn' для невідповідності на зворотному пасмі. Шаблон "\+[0-9]+[ACGTNacgtn]+"
вказує на наявність вставки між цією опорною позицією та наступною
опорне положення. Довжина вставки задається цілим числом у
шаблон, за яким слідує вставлена ​​послідовність. Так само візерунок
"-[0-9]+[ACGTNacgtn]+" означає видалення з посилання. Видалені
бази будуть представлені як `*' в наступних рядках. Також на базі читання
У стовпці символ `^' позначає початок читання. ASCII символу
наступне `^' мінус 33 дає якість відображення. Символ "$" позначає кінець
прочитаний сегмент.

вхід варіанти:

-6 Припустимо, що якість в кодуванні Illumina 1.3+. -A Не пропускайте
аномальні пари читання у варіанті виклику.

-B Вимкнути імовірнісну перебудову для обчислення бази
якість вирівнювання (BAQ). BAQ – це ймовірність прочитання за шкалою Phred
основа не вирівняна. Застосування цієї опції значно допомагає зменшити
помилкові SNP, спричинені невідповідністю.

-b Фото Список вхідних файлів BAM, один файл на рядок [null]

-C INT Коефіцієнт зниження якості відображення для зчитування
надмірні невідповідності. Дано читання з ймовірністю q, масштабованою за phred
генерується з відображеної позиції, нова якість відображення
приблизно sqrt((INT-q)/INT)*INT. Нульове значення вимикає це
функціональність; якщо ввімкнено, рекомендоване значення для BWA становить 50. [0]

-d INT На позиції, читайте максимально INT зчитування на вхідний BAM. [250]

-E Розширений обчислення BAQ. Цей параметр допомагає чутливості особливо для
MNPs, але це може трохи зашкодити специфічності.

-f Фото Команда faidx-індексований довідковий файл у форматі FASTA. Файл може бути
за бажанням стиснутий за допомогою розіп. [нуль]

-l Фото BED або файл списку позицій, що містить список регіонів або сайтів, де
має бути згенеровано pileup або BCF [null]

-q INT Мінімальна якість відображення для вирівнювання [0]

-Q INT Мінімальна якість основи для розгляду [13]

-r STR Згенеруйте нагромадження лише в регіоні STR [всі сайти]

Вихід варіанти:

-D Вихідна глибина читання для вибірки

-g Обчисліть ймовірності генотипу та виведіть їх у форматі двійкового виклику
(BCF).

-S Вихідний зразок P-значення зсуву ланцюга в масштабі Phred

-u Як і в -g за винятком того, що на виході є нестиснений BCF, який є
кращий для трубопроводів.

Опції та цінності Генотип Ймовірність Обчислення (Для -g or -u):

-e INT Імовірність помилки послідовності розширення розриву за Phred. Зниження INT
призводить до більш тривалих індель. [20]

-h INT Коефіцієнт для моделювання похибок гомополімеру. З огляду на l-довго
гомополімерний прогон, похибка секвенування розміру інделя s моделюється
as INT*s/l, [100]

-I Не виконуйте виклик INDEL

-L INT Пропустіть виклик INDEL, якщо середня глибина на вибірку вище INT.
[250]

-o INT Імовірність помилки відкритої послідовності за шкалою Phred. Зниження INT призводить
щоб більше дзвінків indel. [40]

-p Застосуйте пороги -m і -F для кожного зразка, щоб збільшити чутливість
дзвонить. За замовчуванням обидва параметри застосовуються до читань, об’єднаних з усіх
зразки.

-P STR Список платформ, розділених комами (визначається за @RG-PL) з якого
отримані кандидати в індель. Рекомендується збирати індель
кандидати від технологій секвенування, які мають низький рівень помилок indel
наприклад ILLUMINA. [всі]

перезаголовок samtools reheader

Замініть заголовок in.bam із заголовком in.header.sam. Ця команда є
набагато швидше, ніж заміна заголовка на перетворення BAM->SAM->BAM.

як samtools cat [-h header.sam] [-o out.bam] [ ... ]

Конкатенація BAM. Словник послідовності кожного вхідного BAM повинен бути ідентичним,
хоча ця команда не перевіряє це. Ця команда використовує подібний прийом
перезаголовок що забезпечує швидку конкатенацію BAM.

сортувати samtools сортувати [-nof] [-m maxMem]

Сортувати вирівнювання за крайніми лівими координатами. Файл .бам буде створено.
Ця команда також може створювати тимчасові файли .%d.bam коли ціле
вирівнювання не може бути вставлено в пам'ять (керується опцією -m).

ВАРІАНТИ:

-o Виведіть остаточне вирівнювання до стандартного виводу.

-n Сортуйте за прочитаними назвами, а не за хромосомними координатами

-f Скористайтесь як повний вихідний шлях і не додавати .бам суфікс.

-m INT Приблизно максимальна необхідна пам'ять. [500000000]

злиття samtools merge [-nur1f] [-h inh.sam] [-R reg]
[...]

Об’єднати кілька відсортованих вирівнювань. У заголовку міститься список усіх введених даних
файли BAM та заголовки @SQ інх.сам, якщо є, усі мають посилатися на те саме
набір опорних послідовностей. Список посилань заголовка та (якщо не замінено
-h) Заголовки `@' in1.bam буде скопійовано до out.bam, а також заголовки інших
файли будуть ігноровані.

ВАРІАНТИ:

-1 Використовуйте zlib рівень стиснення 1, щоб стиснути вихідні дані

-f Примусово перезаписати вихідний файл, якщо він є.

-h Фото Використовуйте рядки Фото як заголовки `@' для копіювання out.bam, замінивши
будь-які рядки заголовка, з яких інакше було б скопійовано in1.bam. (Фото is
насправді у форматі SAM, хоча всі записи вирівнювання, які він може містити, є
ігнорується.)

-n Вхідні вирівнювання сортуються за прочитаними іменами, а не за хромосомними
координати

-R STR Об’єднати файли у вказаному регіоні, зазначеному STR [нуль]

-r Прикріпіть тег RG до кожного вирівнювання. Значення тегу виводиться з файлу
імена.

-u Нестиснений вихід BAM

індекс індекс samtools

Вирівнювання в індексі для швидкого довільного доступу. Індексний файл .bai буде
створено.

idxstats samtools idxstats

Отримувати та друкувати статистичні дані в індексному файлі. Вихід розділений TAB
кожен рядок складається з назви опорної послідовності, довжини послідовності, # зіставлених читань
і # невідставлених читання.

faidx samtools faidx [регіон1 [...]]

Індексувати опорну послідовність у форматі FASTA або витягувати підпослідовність з індексованої
еталонна послідовність. Якщо регіон не вказано, faidx індексує файл і
створювати .fai на диску. Якщо вказано регіони, то підпослідовності
буде отримано та надруковано на стандартний виведення у форматі FASTA. Вхідний файл може
бути стиснутим у РАЗФ Формат.

напарник samtools fixmate

Заповніть координати з’єднання, ISIZE та пов’язані прапори з відсортованого іменем
вирівнювання.

rmdup samtools rmdup [-sS]

Видаліть потенційні дублікати ПЛР: якщо кілька пар зчитування мають ідентичні зовнішні
координат, зберігайте лише пару з найвищою якістю відображення. У парі-
кінцевий режим, ця команда ТІЛЬКИ працює з FR орієнтацією і вимагає ISIZE
правильно встановлений. Це не працює для непарних читань (наприклад, два кінці, зіставлені на
різні хромосоми або сирота читання).

ВАРІАНТИ:

-s Видаліть дублікат для одностороннього читання. За замовчуванням команда працює для
лише для читання на парних кінцях.

-S Розглядайте читання в парі та одностороннє читання.

спокійний samtools calmd [-EeubSr] [-C capQcoef]

Згенеруйте тег MD. Якщо тег MD вже присутній, ця команда дасть a
попередження, якщо створений тег MD відрізняється від існуючого тега. Виведення SAM
за замовчуванням

ВАРІАНТИ:

-A При спільному застосуванні з -r ця опція замінює вихідну базу
якість.

-e Перетворіть базу читання в =, якщо вона ідентична вирівняному посиланню
бази. Виклик Indel на даний момент не підтримує основи =.

-u Вивести нестиснений BAM

-b Вихід стисненого BAM

-S Вхідним є SAM з рядками заголовка

-C INT Коефіцієнт для максимальної якості відображення погано відображених читань. Див
накопичувати команда для деталей. [0]

-r Обчисліть тег BQ (без -A) або базову якість обмеження за BAQ (з -A).

-E Розширений розрахунок BAQ. Цей параметр обмінює специфічність для
чутливість, хоча ефект незначний.

цільовий зріз samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
ref]

Ця команда визначає цільові регіони, перевіряючи безперервність читання
глибини, обчислює гаплоїдні консенсусні послідовності цілей і виводить SAM з
кожна послідовність відповідає цілі. Коли варіант -f використовується, BAQ буде
застосовано. Ця команда є тільки призначений для вирізання клонів фосміди з фосміди
секвенування пулу [Ref. Кіцман та ін. (2010)].

фаза samtools фаза [-AF] [-k len] [-b префікс] [-q minLOD] [-Q minBaseQ]

Викликати та фазувати гетерозиготні SNP. ВАРІАНТИ:

-A Перекидання читання з неоднозначною фазою.

-b STR Префікс виходу BAM. Коли ця опція використовується, буде зчитування фази 0
збережено у файлі STR.0.bam і фаза-1 зчитується STR.1.бам. Фаза невідома
reads буде випадковим чином розподілено в одному з двох файлів. Химерно читає
з помилками перемикання буде збережено в STR.chimeric.bam. [нуль]

-F Не намагайтеся виправити химерні зчитування.

-k INT Максимальна довжина для локальної фазування. [13]

-q INT Мінімальний LOD за шкалою Phred, щоб назвати гетерозиготу. [40]

-Q INT Мінімальна базова якість, яка буде використовуватися під час дзвінків. [13]

BCFTOOLS КОМАНДИ І ВАРІАНТИ


вид bcftools вид [-AbFGNQSucgv] [-D seqDict] [-l listLoci] [-s listSample] [-i
gapSNPratio] [-t mutRate] [-p varThres] [-m varThres] [-P попередній] [-1 nГрупа1]
[-d minFrac] [-U пПерм] [-X permThres] [-T trioType] in.bcf [регіон]

Перетворення між BCF і VCF, виклик варіантів-кандидатів і оцінка алеля
частоти.

Введення-виведення варіанти:

-A Зберігайте всі можливі альтернативні алелі на варіантних сайтах. За замовчуванням,
команда view відкидає малоймовірні алелі.

-b Виведення у форматі BCF. За замовчуванням – VCF.

-D Фото Словник послідовностей (список назв хромосом) для перетворення VCF->BCF
[нуль]

-F Вкажіть, що PL генерується r921 або раніше (впорядкування інше).

-G Придушити всю інформацію про індивідуальний генотип.

-l Фото Список сайтів, на яких виводиться інформація [усі сайти]

-N Пропускати сайти, де поле REF не є A/C/G/T

-Q Виведіть формат імовірності QCALL

-s Фото Список зразків для використання. Перший стовпець у вхідних даних дає зразок
назви, а другий дає плоїдність, яка може бути лише 1 або 2. Коли
2-й стовпець відсутній, плоїдність зразка приймається рівною 2. В
на виході, порядок зразків буде ідентичний у Фото.
[нуль]

-S Вхідним є VCF замість BCF.

-u Нестиснений вихід BCF (сила -b).

Консенсус/Варіант покликання варіанти:

-c Варіанти виклику з використанням байєсовського висновку. Цей параметр автоматично
викликає опцію -e.

-d ПЛОС Коли -v використовується, пропустити локуси, де частка зразків охоплена
reads знаходиться нижче FLOAT. [0]

-e Виконуйте лише висновок максимальної правдоподібності, включаючи оцінку сайту
частота алелів, перевірка рівноваги Харді-Вайнберга та тестування
асоціації з LRT.

-g Визначення генотипів для вибірки у варіантах (сила -c)

-i ПЛОС Відношення частоти мутацій INDEL до SNP [0.15]

-m ПЛОС Нова модель для покращеного мультиалельного та рідкісного виклику. Інший
Алель ALT приймається, якщо P(chi^2) LRT перевищує поріг FLOAT.
Параметр здається надійним, а фактичне значення зазвичай ні
сильно впливають на результати; хороша цінність для використання становить 0.99. Це
рекомендований метод виклику. [0]

-p ПЛОС Сайт вважається варіантом, якщо P(ref|D)

-P STR Частотний спектр попереднього або початкового алеля. Якщо STR може бути Повний, умова2,
плоский або файл, що складається з виводу помилки з попереднього варіанту
виклик біг.

-t ПЛОС Масштабований показник мутації для виклику варіанта [0.001]

-T STR Увімкнути парні/тріо дзвінки. Для тріо дзвінків, опція -s звичайно
необхідно застосувати для налаштування членів трійки та їх упорядкування.
У файлі, що надається параметру -s, перший зразок має бути
дитина, другий батько, третій мати. Дійсний
значення STR є "пара", "тріоавто", "тріокс" і "тріокс", де
`pair' викликає відмінності між двома вхідними зразками і `trioxd'
(`trioxs') вказує, що вхідні дані надходять з Х-хромосоми, не пов'язаної з PAR
регіонів, а дитина – жінка (чоловік). [нуль]

-v Вивести лише варіанти сайтів (force -c)

Контрастність покликання та Асоціація Тест варіанти:

-1 INT Кількість зразків групи-1. Цей параметр використовується для поділу
зразки на дві групи для визначення контрасту SNP або тесту асоціації.
Коли ця опція використовується, буде виведена така VCF INFO:
PC2, PCHI2 і QCHI2. [0]

-U INT Кількість перестановок для перевірки асоціації (діє тільки з -1)
[0]

-X ПЛОС Виконуйте перестановки лише для P(chi^2) -U)
[0.01]

індекс bcftools індекс in.bcf

Індекс відсортований BCF для довільного доступу.

як bcftools як in1.bcf [in2.bcf [...]]]

Конкатенація файлів BCF. Вхідні файли необхідно відсортувати та мати
ідентичні зразки, що з’являються в тому ж порядку.

SAM ФОРМАТ


Формат Sequence Alignment/Map (SAM) розділений TAB. Окрім рядків заголовка, які
починаються з символу `@', кожен рядок вирівнювання складається з:

┌────┬───────┬─────────────────────────────────── ────────────────────────┐
ColПолеОпис
├────┼───────┼─────────────────────────────────── ────────────────────────┤
│ 1 │ QNAME │ Шаблон запиту/пара НАЗВА │
│ 2 │ FLAG │ порозрядний FLAG │
│ 3 │ RNAME │ Довідкова послідовність NAME │
│ 4 │ POS │ Крайня ліва позиція/координата обрізаної послідовності на основі 1 │
│ 5 │ MAPQ │ Якість MAPping (Phred-scaled) │
│ 6 │ CIAGR │ подовжена нитка CIGAR │
│ 7 │ MRNM │ Матеріал Довідкова послідовність NaMe (`=', якщо таке саме як RNAME) │
│ 8 │ MPOS │ Позиція Mate на основі 1 │
│ 9 │ TLEN │ виведена довжина шаблону (розмір вставки) │
│10 │ SEQ │ Послідовність запиту на тому ж нитку, що й посилання │
│11 │ QUAL │ запит QUALity (ASCII-33 дає базову якість Phred) │
│12+ │ OPT │ змінна Необов'язкові поля у форматі TAG:VTYPE:VALUE │
└────┴───────┴─────────────────────────────────── ────────────────────────┘

Кожен біт у полі FLAG визначається як:

┌───────┬─────┬────────────────────────────────── ────────────────┐
ПрапорChrОпис
├───────┼─────┼────────────────────────────────── ────────────────┤
│0x0001 │ p │ читання об'єднане в послідовність │
│0x0002 │ P │ читання відображається у відповідній парі │
│0x0004 │ u │ сама послідовність запиту не відображена │
│0x0008 │ U │ партнера не відображено │
│0x0010 │ r │ рядок запиту (1 для зворотного) │
│0x0020 │ R │ пасмо партнера │
│0x0040 │ 1 │ читання є першим зчитуванням у парі │
│0x0080 │ 2 │ читання є другим зчитуванням у парі │
│0x0100 │ с │ вирівнювання не є основним │
│0x0200 │ f │ читання не проходить перевірку якості платформи/постачальника │
│0x0400 │ d │ зчитування є ПЛР або оптичним дублікатом │
└───────┴─────┴─────────────────────────────────── ────────────────┘
де другий стовпець дає рядкове представлення поля FLAG.

VCF ФОРМАТ


Варіантний формат виклику (VCF) – це формат із роздільниками TAB, кожен рядок даних складається з
наступні поля:

┌────┬────────┬─────────────────────────────────── ────────────────────────────┐
ColПолеОпис
├────┼────────┼────────────────────────────────── ────────────────────────────┤
│ 1 │ ХРОМ │ ХРОМосомна назва │
│ 2 │ POS │ крайня ліва позиція варіанту │
│ 3 │ ID │ унікальний ідентифікатор варіанта │
│ 4 │ REF │ референтний алель │
│ 5 │ ALT │ альтернативний алель(и), розділені комою │
│ 6 │ ЯКІСТЬ │ варіант/референт ЯКІСТЬ │
│ 7 │ ФІЛЬТР │ ​​ФІЛЬТРИ застосовані │
│ 8 │ ІНФОРМАЦІЯ │ ІНФОРМАЦІЯ, пов'язана з варіантом, розділена крапкою з комою │
│ 9 │ ФОРМАТ │ ФОРМАТ полів генотипу, розділених двокрапкою (необов’язково) │
│10+ │ ЗРАЗОК │ ЗРАЗОК Генотипи та інформація про вибірку (необов’язково) │
└────┴────────┴─────────────────────────────────── ────────────────────────────┘

У наступній таблиці наведено INFO теги, які використовуються samtools і bcftools.

┌──────┬───────────┬───────────────────────────── ─────────────────────────────────────────────────── ──────────────────────┐
ТегсформованийОпис
├──────┼───────────┼───────────────────────────── ─────────────────────────────────────────────────── ─────────────────────┤
└──────┴───────────┴───────────────────────────── ─────────────────────────────────────────────────── ──────────────────────┘

ПРИКЛАДИ


o Імпортувати SAM в BAM коли @SQ рядки присутні в заголовку:

samtools view -bS aln.sam > aln.bam

If @SQ рядки відсутні:

samtools faidx ref.fa
samtools view -bt ref.fa.fai aln.sam > aln.bam

де ref.fa.fai генерується автоматично за допомогою faidx команда

o Прикріпіть RG тег під час об’єднання відсортованих вирівнювань:

perl -e 'друк
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools merge -rh rg.txt merged.bam ga.bam 454.bam

Значення в а RG тег визначається іменем файлу, з якого надходить читання. У цьому
наприклад, в злилися.бам, читає з ga.bam буде прикріплено RG:Z:ga, поки читає з
454.бам буде прикріплено RG:Z:454.

o Викликати SNP і короткі INDEL для однієї диплоїдної особини:

samtools mpileup -ugf ref.fa aln.bam | bcftools view -bvcg - > var.raw.bcf
bcftools переглянути var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

Команда -D Опція varFilter контролює максимальну глибину читання, до якої слід налаштувати
приблизно вдвічі більше середньої глибини читання. Можна розглянути можливість додати -C50 до mpileup якщо відображення
якість завищена для читань, що містять надмірні невідповідності. Застосування цієї опції
зазвичай допомагає BWA-коротка але не можуть інші картографи.

o Сформуйте консенсусну послідовність для однієї диплоїдної особини:

samtools mpileup -uf ref.fa aln.bam | bcftools view -cg - | vcfutils.pl vcf2fq >
cns.fq

o Назвіть соматичні мутації з пари зразків:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair - > var.bcf

У вихідному полі INFO, CLR дає відношення Phred-log між ймовірністю за
лікування двох зразків незалежно, і ймовірність, вимагаючи від генотипу
бути ідентичними. Це CLR це фактично оцінка, що вимірює впевненість соматичних
дзвінки. Чим вище, тим краще.

o Викликати de novo та соматичні мутації з сімейного трио:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -s samples.txt - >
var.bcf

філе samples.txt має складатися з трьох рядків із зазначенням члена та порядку
зразки (у порядку дитина-батько-мама). так само, CLR дає Phred-log
коефіцієнт імовірності з обмеженням тріо та без нього. CGU показує найімовірніше
конфігурація генотипу без обмеження тріо, і CGT дає найімовірніше
конфігурація генотипу, що задовольняє обмеження тріо.

o Фаза перша особа:

samtools calmd -AEur aln.bam ref.fa | samtools phase -b префікс - > phase.out

Команда спокійний Команда використовується для зменшення хибних гетерозигот навколо INDEL.

o Викликати SNP та короткі індекси для кількох диплоїдних особин:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools view -bcvg - > var.raw.bcf
bcftools переглянути var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

Особи ідентифікуються з SM теги в @RG рядки заголовка. Окремі особи можуть бути
об'єднані в один файл вирівнювання; одну особу також можна розділити на кілька файлів.
Команда -P Параметр вказує, що кандидати на indel повинні бути зібрані лише з груп читання
з @RG-PL для тегу встановлено значення ІЛЛУМІНА. Збір кандидатів на індель із упорядкованих читань
за допомогою технології indel-prone може вплинути на продуктивність виклику indel.

Зауважте, що існує нова модель виклику, яку можна викликати

bcftools view -m0.99 ...

який усуває деякі серйозні обмеження методу за замовчуванням.

Для фільтрації найкращих результатів можна досягти, якщо спочатку застосувати SnpGap фільтр і
потім застосувати певний підхід машинного навчання

vcf-аннотація -f SnpGap=n
фільтр vcf...

Обидва можна знайти в vcftools та htslib пакет (посилання нижче).

o Отримайте частотний спектр алелей (AFS) у списку сайтів від кількох осіб:

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools view -bl sites.list all.bcf > sites.bcf
bcftools view -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools view -cGP sites.1.afs sites.bcf > /dev/null 2> sites.2.afs
bcftools view -cGP sites.2.afs sites.bcf > /dev/null 2> sites.3.afs
......

де sites.list містить список сайтів, кожен рядок якого складається з посилання
назва та посада послідовності. Наступні bcftools команди оцінюють AFS за EM.

o Дамп BAQ застосованого вирівнювання для інших викликів SNP:

samtools calmd -bAr aln.bam > aln.baq.bam

Він додає та виправляє NM та MD теги одночасно. The спокійний також приходить команда
з -C варіант, такий же, як і в накопичувати та mpileup. Застосовуйте, якщо це допомагає.

ОБМЕЖЕННЯ


o Невирівняні слова, що використовуються в bam_import.c, bam_endian.h, bam.c і bam_aux.c.

o Samtools paried-end rmdup не працює для непарних читань (наприклад, сиротські читання або закінчення
зіставляються з різними хромосомами). Якщо це викликає занепокоєння, скористайтеся службою Picard's
MarkDuplicate, який правильно обробляє ці випадки, хоча трохи повільніше.

Використовуйте bcftools онлайн за допомогою служб onworks.net


Безкоштовні сервери та робочі станції

Завантажте програми для Windows і Linux

  • 1
    Жар-птиця
    Жар-птиця
    Firebird RDBMS пропонує функції ANSI SQL
    і працює на Linux, Windows і
    кілька платформ Unix. особливості
    чудова паралельність і продуктивність
    & потужність...
    Завантажити Firebird
  • 2
    KompoZer
    KompoZer
    KompoZer — це HTML-редактор wysiwyg, який використовує
    кодова база Mozilla Composer. Як
    Розвиток Nvu було зупинено
    у 2005 році KompoZer виправляє багато помилок і
    додає ф...
    Завантажити KompoZer
  • 3
    Безкоштовний завантажувач манги
    Безкоштовний завантажувач манги
    Безкоштовний завантажувач манги (FMD) є
    програма з відкритим кодом, написана
    Object-Pascal для управління і
    завантаження манги з різних веб-сайтів.
    Це дзеркало...
    Завантажте безкоштовний завантажувач манги
  • 4
    Aetbootin
    Aetbootin
    UNetbootin дозволяє створювати завантажувальні програми
    Живі USB-накопичувачі для Ubuntu, Fedora та
    інші дистрибутиви Linux без
    запис компакт-диска. Він працює на Windows, Linux,
    і ...
    Завантажити UNetbootin
  • 5
    Dolibarr ERP - CRM
    Dolibarr ERP - CRM
    Dolibarr ERP - CRM проста у використанні
    Пакет програмного забезпечення з відкритим кодом ERP і CRM
    (запустити з веб-сервером php або як
    автономне програмне забезпечення) для бізнесу,
    основи...
    Завантажити Dolibarr ERP - CRM
  • 6
    SQL-клієнт SQuirreL
    SQL-клієнт SQuirreL
    SQuirreL SQL Client — це графічний SQL
    клієнт, написаний на Java, що дозволить
    Ви можете переглянути структуру JDBC
    сумісна база даних, переглядайте дані в
    столи...
    Завантажте клієнт SQuirreL SQL
  • Детальніше »

Команди Linux

Ad