daligner - Интернет в облаке

Это команда daligner, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

ПРОГРАММА:

ИМЯ


daligner - долго читаемый элайнер

СИНТАКСИС


уважаемый [-vbAI][-kInt(14)] [-wInt(6)] [-hInt(35)] [-tInt] [-MInt] [-eдвойной (70)]
[-lInt(1000)] [-sInt(100)] [-HInt] [-mтрек]+ тема: db | плотина цель: db | плотина ...

ОПИСАНИЕ


Сравните последовательности в обрезанном предмет заблокировать против тех, кто находится в списке цель Блоки
поиск локальных трасс с участием не менее -l пары оснований (по умолчанию 1000) или больше,
которые имеют средний коэффициент корреляции -e (по умолчанию 70%). Найденные локальные трассы
будет выводиться в разреженной кодировке, где точка трассировки на выравнивании записывается каждые
-s пары оснований а-чтения (по умолчанию 100 пар оснований). Показания сравниваются в обеих ориентациях и
локальные выравнивания, соответствующие критериям, выводятся в один из нескольких описанных созданных файлов
ниже. -v опция включает режим подробных отчетов, который дает статистику по каждому
главный шаг вычисления.

Варианты -k, -hи -w контролировать начальную фильтрацию поиск возможных совпадений
между чтениями. В частности, наш поисковый код ищет пару диагональных полос шириной
2 ^ w (по умолчанию 2 ^ 6 = 64), которые содержат набор точных совпадающих k-мер (по умолчанию 14)
между двумя чтениями, так что общее количество баз, покрытых попаданиями k-mer, равно h
(по умолчанию 35). k не может быть больше 32 в текущей реализации. Если -b вариант
установлен, то уважаемый предполагает, что данные имеют сильную композиционную систематическую ошибку (например,> 65% AT
rich), и за счет немного большего количества времени динамически регулирует размеры k-mer в зависимости от
композиционная предвзятость, так что используемые меры имеют эффективную специфичность 4 ^ k.

Если есть один или несколько интервальных треков, указанных с -m вариант, затем чтения
БД или БД, к которым применяется маска, мягко маскируются с объединением интервалов
всех применяемых интервальных треков, то есть любых k-мер, содержащих любые основания в любом из
замаскированные интервалы игнорируются для определения совпадения. Интервальный трек
- это трек, такой как трек "пыли", созданный DBdust, который кодирует набор интервалов
либо над необрезанной, либо над обрезанной БД.

Неизменно, некоторые k-меры значительно перепредставлены (например, гомополимерные ряды).
Эти k-меры создают чрезмерное количество совпадающих пар k-мер, и если их оставить без внимания, то это приведет к
заставит daligner переполнить доступную физическую память. Один из способов справиться с этим -
явно установить -t параметр, который подавляет использование любых k-мер, которые встречаются больше
чем t раз в тематическом или целевом блоке. Однако лучший способ справиться с
ситуация состоит в том, чтобы позволить программе автоматически выбрать значение t что соответствует заданному
ограничение использования памяти, указанное (в Гб) -M параметр. По умолчанию уважаемый буду использовать
объем физической памяти как выбор для -M. Если вы хотите использовать меньше, скажите только 8 ГБ
на узле кластера HPC 24 ГБ, потому что вы хотите запустить 3 уважаемый задания на узле, затем
указывать -M8. Указание -M0 в основном означает, что вы не хотите уважаемый себе
настроить подавление k-мер в соответствии с заданным объемом памяти.

Для каждого предмета, целевой пары блоков, скажем X и Y, программа сообщает о выравнивании, где
чтение a находится в X, а чтение b - в Y, и наоборот. Однако если -A опция
set ("A" для "асимметричного"), то просто перекрывается, где a-чтение находится в X, а b-чтение -
в Y, а если X = Y, то он далее сообщает только те перекрытия, где
Индекс чтения a меньше индекса чтения b. В любом случае, если -I опция установлена ​​("I"
для "идентичности"), тогда, когда X = Y, перекрытия между разными частями одного и того же считываемого
также можно найти и сообщить.

Каждое найденное совпадение записывается как - a [ab, ae] x bo [bb, be] - где a и b - это
индексы (в усеченной БД) считываний, которые перекрываются, o указывает, является ли b-чтение
из той же или противоположной нити, а [ab, ae] и [bb, be] - интервалы между a и bo,
соответственно, что выровняйте. Программа помещает эти записи выравнивания в файлы с именем
имеет вид XY [C | N] #. las, где C указывает, что b-чтения дополняются, а N
указывает, что это не так (выполняются оба сравнения), а # - поток, который обнаружил
и выписал набор выравниваний, содержащийся в файле. Это файл
XYO # .las содержит выравнивания, произведенные потоком #, для которого a-чтение происходит из X и
b-чтение - от Y и в ориентации O. Команда уважаемый -A X Y производит 2 * NTHREAD
файлы потоков XY? .las и уважаемый X Y создает 4 * NTHREAD файла XY? .las и YX? .las.
(Если не указано X=Y в этом случае создаются только файлы NTHREAD, XX? .las).

По умолчанию уважаемый сравнивает все перекрытия между чтениями в базе данных, которые больше
чем минимальный порог, установленный при разделении БД или БД, обычно 1 или 2 Кбит / с. Тем не мение,
конвейер сборки HGAP хочет исправлять только большие чтения, скажем 8Kbp или более, и поэтому
нужны только перекрытия, когда a-чтение является одним из больших чтений. Установив -H
параметр, чтобы сказать N, один изменяет уважаемый так что он сообщает только о перекрытиях, где a-read
имеет длину более N пар оснований.

Хотя настройки параметров по умолчанию подходят для необработанных данных Pacbio, уважаемый может быть использован
для эффективного поиска совмещений в исправленных считываниях или других менее шумных считываниях. Для
Например, для сопоставления приложений с .dams мы запускаем

уважаемый -k20 -h60 -e.85

и при исправленных чтениях мы обычно запускаем

уважаемый -k25 -w5 -h60 -e.95 -s500

и при этих настройках это очень быстро.

Используйте daligner онлайн с помощью сервисов onworks.net



Новейшие онлайн-программы для Linux и Windows