Это команда pbbarcode, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
pbbarcode - аннотировать чтение последовательности PacBio с помощью информации штрих-кода
ОПИСАНИЕ
The pbштрихкод пакет предоставляет утилиты для аннотирования отдельных ZMW непосредственно из
файл bas.h5, генерирующий быстрые [a | q] файлы для каждого штрих-кода, помечая выравнивания, хранящиеся в
cmp.h5 и вызов консенсуса для малых ампликонов (требуется пбдагкон(1))
На данный момент штрих-коды можно оценивать двумя способами: симметричный и в паре.
Симметричный режим поддерживает дизайны штрих-кодов с двумя идентичными штрих-кодами на обеих сторонах листа.
SMRTbell, например, для штрих-кодов (A, B) молекулы помечаются как A - A или B - B. В в паре
режим поддерживает конструкции с двумя различными штрих-кодами на каждой стороне молекулы, но ни один
штрих-код отображается без сопряжения. Минимальный пример дается со следующим
штрих-коды: (ALeft, ARight, BLeft, BRight), где проверяются следующие наборы штрих-кодов:
ALeft - ARight, BLeft - Ярко.
Важно отметить, что файл FASTA со штрих-кодом определяет список доступных
штрих-коды для оценки. В зависимости от режима выставления оценок штрих-коды группируются в
различные пути. Например, в симметричный case, количество возможных штрих-кодов
результаты - это просто количество штрих-кодов, которые вводятся в процедуру в FASTA.
файл (использование см. ниже) плюс дополнительный NULL, штрих-код, указывающий на отсутствие штрих-кода
может быть оценен (обозначается: '-'). Такие ярлыки (A - A) используются в финальном
выходы. в в паре режим, количество возможных результатов штрих-кода составляет половину числа
последовательностей в файле FASTA плюс NULL, штрих-код. В NULL, штрих-код указывает, что
не было предпринято никаких попыток подсчитать молекулу или она была отфильтрована по критериям пользователя.
Большинство случаев, когда молекула не оценивается, связаны с отсутствием наблюдения за ней.
переходники. Если пользователь выполнил запуск "горячего старта", он может попробовать '--scoreFirst'
параметр, чтобы попытаться пометить штрих-код первого адаптера. Это увеличивает урожайность
процедура маркировки за счет некоторых, вероятно, ложных срабатываний.
Программа реализована в виде стандартного пакета Python. Штрих-коды маркируются в соответствии с
к следующей логике высокого уровня. Для каждой молекулы найдены все адаптеры. Для каждого
адаптера, мы выравниваем (используя стандартное выравнивание Смита-Ваттермана) каждый штрих-код и его обратную сторону
дополняют фланкирующую последовательность адаптера. Если две полные фланкирующие последовательности
доступных, мы делим на 2, иначе на 1, если была доступна только одна фланговая последовательность (в среднем
забить у адаптера). Это позволяет использовать одну и ту же шкалу для разных адаптеров (химера
обнаружение). В зависимости от Режим, затем мы определяем, какой штрих-код (-ы) максимально
подсчет очков. Мы храним два штрих-кода с максимальной оценкой, сумму их оценок за выравнивание.
через адаптеры. Тогда средний балл штрих-кода можно приблизительно определить следующим образом:
общий балл / количество адаптеров. На данный момент параметры юстировки зафиксированы на:
┌──────────┬───────
│тип │ оценка │
├──────────┼───────
│вставка │ -1 │
├──────────┼───────
│удаление │ -1 │
├──────────┼───────
Missmatch │ -2 │
├──────────┼───────
│матч │ 2 │
└──────────┴───────
вход и выходной
этикетка
Применение: pbштрихкод этикетка [-час] [--outDir НАРУЖНЫЙ] [--outFofn ВНЕШНИЙ]
[--adapterSidePad ADAPTERSIDEPAD] [--insertSidePad INSERTSIDEPAD] [--scoreMode
{симметричный, парный}] [--maxAdapters MAXADAPTERS] [--scoreFirst]
[--startTimeCutoff STARTTIMECUTOFF] [--nZmws NZMWS] [--nProcs NPROCS]
[--saveExtendedInfo] barcode.fasta input.fofn
Создает файл barcode.h5 из базовых файлов h5.
позиционный аргументы:
barcode.fasta Входной файл штрих-кода fasta input.fofn Входная база
фофн
необязательный аргументы:
-h, --Помогите
показать это справочное сообщение и выйти
--outDir ВНЕШНИЙ
Куда записывать вновь созданные файлы barcode.h5. (дефолт:
/ главная / UNIXHOME / jbullard / проекты / программное обеспечение / биоинформатика / инструменты / pbbarcode / doc)
--outFofn ВЫХОД
Написать в outFofn (по умолчанию: barcode.fofn)
--adapterSidePad ПЕРЕХОДНИК
Пэд с адаптером Боковые основания (по умолчанию: 4)
--insertSidePad ВСТАВИТЬ
Пэд с основаниями insertSidePad (по умолчанию: 4)
--scoreMode {симметричный, парный}
Режим, в котором должны быть начислены штрих-коды. (по умолчанию: симметричный)
--maxАдаптеры МАКСАДАПТЕРЫ
Оцените только первые maxAdapters (по умолчанию: 20)
--scoreFirst
Следует ли пытаться отследить крайний левый штрих-код. (по умолчанию: False)
--startTimeCutoff НАЧАЛО ВРЕМЕНИ
Чтения должны начинаться до этого значения, чтобы их можно было включить, когда
ScoreFirst установлен. (по умолчанию: 10.0)
--nZmws НЗМВС
Используйте первые n ZMW для тестирования (по умолчанию: -1)
--nProcs НПРОКС
Сколько процессов использовать (по умолчанию: 8)
--saveExtendedInfo
Сохранять ли расширенную информацию в файлах barcode.h5; это
информация полезна для отладки и обнаружения химер (по умолчанию:
Ложь)
The этикетка команда принимает input.fofn, представляющий набор файлов bas.h5 для работы
на. Дополнительно требуется файл barcode.fasta. В зависимости от режим счета, файл FASTA
будут обрабатываться по-разному. В частности, в в паре режим, каждые два последовательных
штрих-коды в файле считаются набором.
Параметры, адаптер и вставкабоковая панель представляет, сколько баз должно быть
считается на каждой стороне предполагаемого штрих-кода. Эти параметры ограничены такими
, что: | адаптерSidePad | + | insertSidePad | + | штрих-код | < 65.
Пользователи имеют возможность указать другое место вывода для различных выходов.
В частности, для каждого файла bas.h5 в input.fofn используется файл bc.h5 (штрих-код hdf5).
сгенерировано. Эти файлы перечислены в файле outFofn который обычно просто называют
штрих-код.fofn. См. Ниже описание файла hdf5 со штрих-кодом.
меткиВыравнивания
Применение: pbштрихкод меткиВыравнивания [-час]
[--minAvgBarcodeScore MINAVGBARCODEScore] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINSCORERATIO] barcode.fofn align_reads.cmp.h5
Добавляет информацию о выравнивании штрих-кода в файл cmp.h5 из предыдущего вызова
"labelZmws".
позиционный аргументы:
barcode.fofn входной файл штрих-кода fofn align_reads.cmp.h5 файл cmp.h5
добавить этикетки со штрих-кодом
необязательный аргументы:
-h, --Помогите
показать это справочное сообщение и выйти
--minAvgBarcodeScore МИНАВГБАРКОДЕСКОР
Фильтр ZMW: исключить ZMW, если средний балл штрих-кода меньше этого значения
(по умолчанию: 0.0)
--minNumШтрихкоды МИНИМАЛЬНЫЕ ШТРИХКОДЫ
Фильтр ZMW: исключить ZMW, если количество наблюдаемых штрих-кодов меньше этого
значение (по умолчанию: 1)
--minScoreRatio МИНСКОРЕРАЦИЯ
Фильтр ZMW: исключить ZMW, лучший результат которых разделен на 2-й лучший результат
меньше этого отношения (по умолчанию: 1.0)
The меткиВыравнивания команда принимает в качестве входных данных barcode.fofn, вычисленный при обращении к
этикетка и файл cmp.h5, в который записывается информация о штрих-коде. См. Ниже
описание дополнений к файлу cmp.h5.
эмитироватьFastqs
Применение: pbштрихкод эмитироватьFastqs [-час] [--outDir выходной.каталог] [--субчтения]
[--unlabeledZmws] [--trim TRIM] [--fasta] [--minMaxInsertLength
MINMAXINSERTLENGTH] [--hqStartTime HQSTARTTIME] [--minReadScore MINREADSCORE]
[--minAvgBarcodeScore MINAVGBARCODEScore] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio МИНСКОРЕРАЦИЯ] input.fofn barcode.fofn
Берет файл bas.h5 и файл barcode.h5 и создает быстрый [a | q] файл для каждого
штрих-код.
позиционный аргументы:
input.fofn input base или CCS fofn-файл barcode.fofn input
файл barcode.h5 fofn
необязательный аргументы:
-h, --Помогите
показать это справочное сообщение и выйти
--outDir выход.каталог выходной каталог в записывать быстро файлов (дефолт: /Главная/
UNIXHOME / jbullard / projects / software / bioinformatics / too ls / pbbarcode / doc)
--подчтения
следует ли создавать файлы fastq для подпотоков; по умолчанию используется
CCS читает. Этот параметр применяется только в том случае, если input.fofn имеет как консенсус, так и
необработанные чтения, в противном случае будет возвращен тип чтения из input.fofn.
(по умолчанию: False)
--unlabeledZmws
следует ли создавать файл fastq для немаркированных ZMW. Это ZMW
обычно адаптеры не обнаруживаются (по умолчанию: False)
--отделка TRIM
обрезать штрих-коды и любую избыточную постоянную последовательность (по умолчанию: 20)
--фаста
должны ли создаваемые файлы быть файлами FASTA, а не FASTQ
(по умолчанию: False)
--minMaxInsertLength МИНМАКСИНСЕРТЛЕГТ
Фильтр ZMW: исключить ZMW, если самая длинная подпрограмма меньше этого количества
(по умолчанию: 0)
--hqStartTime HQSTARTTIME
ZMW Filter: исключить ZMW, если время начала HQ-региона больше этого значения
(секунды) (по умолчанию: inf)
--minReadScore MINREADSCORE
ZMW Filter: исключить ZMW, если readScore меньше этого значения (по умолчанию: 0)
--minAvgBarcodeScore МИНАВГБАРКОДЕСКОР
Фильтр ZMW: исключить ZMW, если средний балл штрих-кода меньше этого значения
(по умолчанию: 0.0)
--minNumШтрихкоды МИНИМАЛЬНЫЕ ШТРИХКОДЫ
Фильтр ZMW: исключить ZMW, если количество наблюдаемых штрих-кодов меньше этого
значение (по умолчанию: 1)
--minScoreRatio МИНСКОРЕРАЦИЯ
Фильтр ZMW: исключить ZMW, лучший результат которых разделен на 2-й лучший результат
меньше этого отношения (по умолчанию: 1.0)
The эмитироватьFastqs команда принимает в качестве входных данных как input.fofn для файлов bas.h5, так и
barcode.fofn из вызова labelZmws. Необязательный параметр outDir диктует, где
файлы будут записаны. Для каждого обнаруженного штрих-кода будет создан быстрый файл [a | q] с
все считывания для этого штрих-кода. В отделка параметр определяет, какой объем чтения должен
быть обрезанным. Параметр по умолчанию для отделка длина штрих-кода (который
хранится в файлах штрих-кода hdf5). На данный момент все штрих-коды в FASTA файле штрих-кодов
должны быть одинаковой длины, поэтому поддерживается только постоянное значение обрезки. На практике,
можно агрессивно обрезать, чтобы не оставлять лишних оснований на концах
читает. Наконец, вложенные чтения Параметр определяет, должны ли быть подпрограммы чтения или чтения CCS.
возвращается со значением по умолчанию, подходящим для чтения в соответствии с типом входного файла,
либо CCS, либо дополнительные чтения. Этот параметр проверяется только в том случае, если input.fofn содержит оба
CCS и данные подчитывания, если input.fofn содержит только данные подчитки или CCS, то это
возвращается независимо от состояния вложенные чтения параметр, и выдается предупреждение.
консенсус
Применение: pbштрихкод консенсус [-час] [--подвыборка ПОДРАЗДЕЛЕНИЕ] [--nZmws НЗМВС]
[--outDir OUTDIR] [--keepTmpDir] [--ccsFofn CCSFOFN] [--nProcs NPROCS]
[--noQuiver] [--minMaxInsertLength MINMAXINSERTLENGTH] [--hqStartTime
HQSTARTTIME] [--minReadScore MINREADSCORE] [--minAvgBarcodeScore
MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES] [--minScoreRatio
МИНСКОРЕРАЦИЯ] [--barcode BARCODE [BARCODE ...]] input.fofn barcode.fofn
Вычислите согласованные последовательности для каждого штрих-кода.
позиционный аргументы:
input.fofn входной файл bas.h5 fofn barcode.fofn входной bc.h5
fofn файл
необязательный аргументы:
-h, --Помогите
показать это справочное сообщение и выйти
--подвыборка ПОДРАЗДЕЛЕНИЕ
Подвыборка ZMW (по умолчанию: 1)
--nZmws НЗМВС
Возьмите n ZMW (по умолчанию: -1)
--outDir ВНЕШНИЙ
Используйте этот каталог для вывода результатов (по умолчанию:.)
--keepTmpDir --ccsFofn CCSFOFN Получить данные CCS от ccsFofn вместо
input.fofn
(дефолт: )
--nProcs НПРОКС
Используйте nProcs для выполнения. (по умолчанию: 16)
--noQuiver --minMaxInsertLength MINMAXINSERTLENGTH
Фильтр ZMW: исключить ZMW, если самая длинная подпрограмма меньше этого количества
(по умолчанию: 0)
--hqStartTime HQSTARTTIME
ZMW Filter: исключить ZMW, если время начала HQ-региона больше этого значения
(секунды) (по умолчанию: inf)
--minReadScore MINREADSCORE
ZMW Filter: исключить ZMW, если readScore меньше этого значения (по умолчанию: 0)
--minAvgBarcodeScore МИНАВГБАРКОДЕСКОР
Фильтр ZMW: исключить ZMW, если средний балл штрих-кода меньше этого значения
(по умолчанию: 0.0)
--minNumШтрихкоды МИНИМАЛЬНЫЕ ШТРИХКОДЫ
Фильтр ZMW: исключить ZMW, если количество наблюдаемых штрих-кодов меньше этого
значение (по умолчанию: 1)
--minScoreRatio МИНСКОРЕРАЦИЯ
Фильтр ZMW: исключить ZMW, лучший результат которых разделен на 2-й лучший результат
меньше этого отношения (по умолчанию: 1.0)
- штрих-код BARCODE [ШТРИХ-КОД ...]
Используйте это, чтобы получить консенсус только для одного штрих-кода. (по умолчанию: нет)
The эмитироватьFastqs команда принимает в качестве входных данных как input.fofn для файлов bas.h5, так и
barcode.fofn из вызова labelZmws. Результатом является файл FASTA с записью для каждого
штрих-код, содержащий согласованную последовательность ампликона. В этом режиме используется Колчан и пбдагкон
для вычисления консенсуса.
В случаях, когда ампликон меньше 2.5 тыс. Оснований, использование данных CCS весьма полезно. В
--ccsFofn позволяет напрямую передавать файлы ccs. Во многих случаях как CCS, так и необработанные
базовые вызовы находятся в одном файле, поэтому вы можете проверить, передав тот же параметр в
input.fofn как ccsFofn.
Зависимости
Пакет pbbarcode зависит от стандартной установки pbcore (-
https://github.com/PacificBiosciences/pbcore). Если кто-то хочет использовать консенсус инструмент,
пбдагкон необходимо установить (https://github.com/PacificBiosciences/pbdagcon).
Штрих-код HDF5 Файл
Файл штрих-кода hdf5, bc.h5, представляет собой простое хранилище данных для вызовов штрих-кода и их
оценки для каждого ZMW. Как правило, пользователю не нужно взаимодействовать с файлами hdf5 со штрих-кодом, но он может
используйте результаты, хранящиеся либо в итоговом файле cmp.h5, либо в файлах fast [a | q]. Штрих-код
Файл hdf5 содержит следующую структуру:
/ BarcodeCalls / best - (nZMWs, 6) [32-битное целое число] набор данных со следующими столбцами:
holeNumber, nAdapters, barcodeIdx1, barcodeScore1, barcodeIdx2, barcodeScore2
Кроме того, лучший набор данных имеет следующие атрибуты:
┌────────────┬─────────────────────────────────────── ──────────────────────────────
│movieName │ m120408_042614_richard_c100309392550000001523011508061222_s1_p0 │
├────────────┼─────────────────────────────────────── ──────────────────────────────
│columnNames │ holeNumber, nAdapters, barcodeIdx1, barcodeScore1, barcodeIdx2, │
│ │ barcodeScore2 │
└────────────┴─────────────────────────────────────── ──────────────────────────────
│scoreMode │ [симметричный | парный] │
├────────────┼─────────────────────────────────────── ──────────────────────────────
│ штрих-коды │ 'bc_1', 'bc_2', ...., 'bc_N' │
└────────────┴─────────────────────────────────────── ──────────────────────────────
Два столбца barcodeIdx1 и barcodeIdx2 являются индексами в штрих-коды атрибут. В
режим счета это режим подсчета очков, используемый для выравнивания штрих-кодов. В штрих-коды атрибут соответствуют
имена последовательностей barcode.fasta.
Кроме того, в некоторых случаях полезно сохранить всю историю
оценка, т. е. оценка каждого штрих-кода для каждого адаптера по всем ZMW. Чтобы сохранить это
информация, необходимо позвонить:
pbштрихкод этикетка --saveExtendedInfo ...
В этом режиме результирующий файл HDF5 будет иметь дополнительный набор данных под
Группа BarcodeCalls с именем: ВСЕ. Этот набор данных имеет следующий формат:
/ BarcodeCalls / all - (nbarcodes * nadapters [zmw_i], 4) для всех i в 1 ... nZMWs
`номер отверстия, адаптерIdx, штрих-код, оценка
The адаптерIdx - индекс адаптера вдоль молекулы, т. е. adapterIdx 1 - это
забил первый переходник.
Дополнения в сравнить HDF5 (см.ч5) Файл
Помимо файла штрих-кода hdf5, вызов меткиВыравнивания аннотирует cmp.h5
файл. Эта аннотация сохраняется способами, совместимыми с форматом файла cmp.h5.
В частности, новая группа:
/ BarcodeInfo /
ID (nBarcodeLabels + 1, 1) [32-битное целое число]
Имя (nBarcodeLabels + 1, 1) [строка переменной длины]
В дополнение к группе / BarcodeInfo /, ключевой набор данных, который назначает выравнивания для
штрих-коды находятся по адресу:
/ AlnInfo / Barcode (nAlignments, 3) [32-битное целое число] со следующими столбцами:
index, count, bestIndex, bestScore, secondBestIndex, secondBestScore
Здесь index относится к индексу в Имя вектора, оценка соответствует сумме
оценки для штрих-кодов, и, наконец, количество относится к количеству адаптеров, найденных в
Молекула.
Декабрь 2015 PBBАРКОД(1)
Используйте pbbarcode в Интернете с помощью сервисов onworks.net