Это командная медуза, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
Jellyfish - это программа для подсчета k-мер в последовательностях ДНК.
СИНТАКСИС
количество медуз [-oпрефикс] [-mвеселье] [-tтемы] [-sразмер хеша] [- обе пряди] Fasta
[Fasta ... ]
слияние медуз хэш1 хэш2 ...
свалка медуз хэш
статистика медуз хэш
медуза histo [-hвысокая] [-lнизкокачественными] [-iувеличить] хэш
запрос медузы хэш
цитировать медузы
Плюс эквивалентная версия для режима Quake: qhisto, qdump и qmerge.
ОПИСАНИЕ
Jellyfish - это счетчик k-mer, основанный на реализации многопоточной хеш-таблицы.
СЧЕТ И СЛИЯНИЕ
Чтобы подсчитать k-мер, используйте такую команду, как:
количество медуз -m 22 -o output -c 3 -s 10000000 -t 32 input.fasta
Это посчитает 22-мера в input.fasta с 32 потоками. Поле счетчика в
хэш использует только 3 бита, а хеш имеет не менее 10 миллионов записей.
Выходные файлы будут называться output_0, output_1 и т. Д. (Префикс указывается с помощью
-o выключатель). Если хэш достаточно большой (указано -s переключатель), чтобы уместить все
k-mers, будет только один выходной файл с именем output_0. Если хеш заполнен раньше
все меры были прочитаны, хеш выгружается на диск, обнуляется и читается в мерсах
возобновляется. На дисках будет несколько промежуточных файлов с именем output_0,
output_1 и т. д.
Чтобы получить правильные результаты от других подкоманд (таких как гистограмма, статистика и т. Д.),
несколько выходных файлов, если таковые имеются, необходимо объединить в один с помощью команды слияния. Для
пример с помощью следующей команды:
слияние медуз -o output.jf output \ _ *
Если вы получите много промежуточных выходных файлов (скажем, сотни), размер хеш-таблицы
очень маленький. Обгон Медузы большего размера (опция -s) вероятно быстрее, чем
объединение всех промежуточных файлов.
ОРИЕНТАЦИЯ
Когда ориентация последовательностей во входном файле fasta неизвестна, например, в
секвенирование чтения, используя - обе пряди (-C) имеет смысл.
Для любого k-мер m его каноническим представлением является сам m или его обратное дополнение,
в зависимости от того, что лексикографически наступит раньше. С опцией -C, только канонический
представление мер хранится в хэше, а значение счетчика - это количество
вхождения как mer, так и его обратного дополнения.
ВЫБОР HASH / ХЭШ РАЗМЕР
Для достижения наилучшей производительности необходимо записать минимальное количество промежуточных файлов.
на диск. Итак, параметр -s следует выбирать так, чтобы вместить как можно больше k-мер (в идеале
все они) пока еще уместились в памяти.
Рассмотрим на примерах: подсчет мер при секвенировании чтения и в готовом геноме.
Во-первых, предположим, что мы подсчитываем k-мер в коротких чтениях секвенирования: есть n чтений и есть
в среднем 1 ошибка на считывание, где каждая ошибка генерирует k уникальных мер. Если геном
size - G, размер хеша (опция -s) для одновременного размещения всех k-мер оценивается как $ (G
+ к * п) / 0.8 $. Деление на 0.8 компенсирует максимальное использование примерно 80% $
хеш-таблицы.
С другой стороны, при подсчете k-меров в собранной последовательности длины G установка -s
к G уместно.
Для удобства Jellyfish понимает суффиксы ISO для размера хэша.
Следовательно, «-s 10M» означает 10 миллионов записей, а «-s 50G» - 50 миллиардов записей.
Фактическое использование памяти хеш-таблицей можно вычислить следующим образом. Фактический размер
хеш будет округлен до следующей степени двойки: s = 2 ^ l. Параметр r таков, что
максимальное значение повторного зондирования (-p) плюс один меньше 2 ^ r. Тогда использование памяти на запись
в хеше (в битах, а не байтах) 2k-l + r + 1. Общее использование памяти хеш-таблицы в
байтов: 2 ^ l * (2k-l + r + 1) / 8.
ВЫБОР СЧЕТ ПОЛЕ РАЗМЕР
Для экономии места в хеш-таблице поддерживается счетчик переменной длины, т.е.
только несколько раз будет использоваться маленький счетчик, многократно повторяющийся k-мер будет использоваться несколько раз
записи в хеше.
Важно: размер поля couting НЕ меняет результат, он влияет только на
объем используемой памяти. В частности, в хэше нет максимального значения. Даже если
поле подсчета использует 5 бит, k-мер, встречающийся 2 миллиона раз, будет иметь значение, равное
2 миллиона (т. Е. Он не ограничен 2 ^ 5).
Ассоциация -c укажите длину (в битах) счетного поля. Компромисс заключается в следующем:
низкое значение сэкономит место для каждой записи в хэше, но потенциально может увеличить количество
записи используются, следовательно, может потребоваться больший хэш.
На практике используйте значение для -c так что большинству из вас, k-mers, требуется только одна запись. Для
Например, для подсчета k-мер в геноме, где большая часть последовательности уникальна, используйте -c1 or
-c2. Для последовательного чтения используйте значение для -c достаточно большой, чтобы считать в два раза больше
покрытие. Например, если покрытие составляет 10X, выберите длину счетчика 5 (-c5) как $ 2 ^ 5
> 20 $.
ПОДКОМАНДЫ И ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ, НЕ ВКЛЮЧЕННЫЕ В ПАКЕТ
СЧИТАТЬ
Использование: количество медуз [параметры] файл: путь +
Подсчитайте k-mers или qmers в файлах fasta или fastq
Параметры (значение по умолчанию в (), * обязательно):
-m, --мер-лен= uint32
* Длина мер
-s, --размер= uint64
* Размер хэша
-t, --потоки= uint32
Количество ниток (1)
-o, --выход= строка
Префикс вывода (mer_counts)
-c, --counter-len= Длина
в битах Длина счетного поля (7)
--out-counter-len= Длина
в байтах Длина поля счетчика на выходе (4)
-C,- обе пряди
Подсчитайте обе нити, каноническое представление (ложь)
-p, --подробнее= uint32
Максимальное количество репробов (62)
-r,--сырой
Записать необработанную базу данных (ложь)
-q,- землетрясение
Режим совместимости с Quake (false)
- качество-старт= uint32
Запуск ASCII для значений качества (64)
--мин-качество= uint32
Минимальное качество. База с более низким качеством становится N (0)
-L, - нижний счет= uint64
Не выводите k-mer с count <lower-count
-U, - верхний счет= uint64
Не выводите k-mer с count> upper-count
матрица= Матрица
файл Хеш-функция двоичная матрица
- время= Время
файл Информация о времени печати
--статистика= Статистика
файл Статистика печати
--использование
Применение
-h,--Помогите
Это сообщение
--полная помощь
Подробная помощь
-V,--версия
Версия
СТАТИСТИКА
Использование: статистика медузы [параметры] db: путь
Показатели
Вывести некоторую статистику о k-mers в хэше:
Уникальный: количество k-мер, которые встречаются только один раз. Отчетливо: количество k-мер, не считая
множественность. Итого: количество k-мер, включая множественность. Max_count: максимальное количество
появления к-мера.
Параметры (значение по умолчанию в (), * обязательно):
-L, - нижний счет= uint64
Не рассматривайте k-mer с count <lower-count
-U, - верхний счет= uint64
Не считайте k-mer с count> upper-count
-v,--подробный
Подробно (ложь)
-o, --выход= строка
Выходной файл
--использование
Применение
-h,--Помогите
Это сообщение
--полная помощь
Подробная помощь
-V,--версия
Версия
гисто
Использование: медуза histo [параметры] db: path
Создайте гистограмму появления k-mer
Создайте гистограмму с количеством k-мер, имеющих заданное количество. В ведре "я" находятся
подсчитали k-мер, у которых есть счетчик 'c', удовлетворяющий 'low + i * inc <= c <low + (i + 1) * inc'.
Сегменты на выходе помечены нижней конечной точкой (low + i * inc).
Последний сегмент в выходных данных ведет себя как объединяющий: он подсчитывает все k-мерки с помощью счетчика.
больше или равно нижней конечной точке этого сегмента.
Параметры (значение по умолчанию в (), * обязательно):
-l, --низкий= uint64
Меньшее значение счета гистограммы (1)
-h, --высокий= uint64
Большое значение счета гистограммы (10000)
-i, - инкремент= uint64
Значение приращения для ковшей (1)
-t, --потоки= uint32
Количество ниток (1)
-f,--полный
Полная история. Не пропускайте счет 0. (ложь)
-o, --выход= строка
Выходной файл
-v,--подробный
Выходная информация (ложь)
--использование
Применение
--Помогите
Это сообщение
--полная помощь
Подробная помощь
-V,--версия
Версия
DUMP
Использование: дамп медузы [параметры] db: путь
Дамп к-мер отсчетов
По умолчанию дамп в формате fasta, где заголовок - это счетчик, а последовательность - это
последовательность к-мер. Формат столбца - это 2 столбца вывода: количество k-мер.
Параметры (значение по умолчанию в (), * обязательно):
-c,--столбец
Формат столбца (false)
-t,--вкладка
Разделитель табуляции (false)
-L, - нижний счет= uint64
Не выводите k-mer с count <lower-count
-U, - верхний счет= uint64
Не выводите k-mer с count> upper-count
-o, --выход= строка
Выходной файл
--использование
Применение
-h,--Помогите
Это сообщение
-V,--версия
Версия
MERGE
Использование: слияние медуз [параметры] ввод: строка +
Объединить базы данных медуз
Параметры (значение по умолчанию в (), * обязательно):
-s, --размер буфера= Буфер
length Длина входного буфера в байтах (10000000)
-o, --выход= строка
Выходной файл (mer_counts_merged.jf)
--out-counter-len= uint32
Длина (в байтах) счетного поля в выводе (4)
--out-размер-буфера= uint64
Размер выходного буфера на поток (10000000)
-v,--подробный
Подробно (ложь)
--использование
Применение
-h,--Помогите
Это сообщение
-V,--версия
Версия
ЗАПРОС
Использование: запрос медузы [параметры] db: path
Запрос из сжатой базы данных
Запросить хэш. Он считывает k-мер со стандартного ввода и записывает счетчики на стандартном вводе.
вывод.
Параметры (значение по умолчанию в (), * обязательно):
-C,- обе пряди
Обе нити (ложные)
-c,--кари-бит
Поле значения как битовая информация (ложь)
-i, --Вход= файл
Входной файл
-o, --выход= файл
Выходной файл
--использование
Применение
-h,--Помогите
Это сообщение
-V,--версия
Версия
КХИСТО
Использование: jellyfish qhisto [параметры] db: string
Создайте гистограмму встречаемости k-mer
Параметры (значение по умолчанию в (), * обязательно):
-l, --низкий= двойной
Меньшее значение счета гистограммы (0.0)
-h, --высокий= двойной
Большое значение счета гистограммы (10000.0)
-i, - инкремент= двойной
Значение приращения для ковшей (1.0)
-f,--полный
Полная история. Не пропускайте счет 0. (ложь)
--использование
Применение
--Помогите
Это сообщение
-V,--версия
Версия
QDUMP
Использование: jellyfish qdump [параметры] db: путь
Дамп k-mer из базы данных qmer
По умолчанию дамп в формате fasta, где заголовок - это счетчик, а последовательность - это
последовательность к-мер. Формат столбца - это 2 столбца вывода: количество k-мер.
Параметры (значение по умолчанию в (), * обязательно):
-c,--столбец
Формат столбца (false)
-t,--вкладка
Разделитель табуляции (false)
-L, - нижний счет= двойной
Не выводите k-mer с count <lower-count
-U, - верхний счет= двойной
Не выводите k-mer с count> upper-count
-v,--подробный
Подробно (ложь)
-o, --выход= строка
Выходной файл
--использование
Применение
-h,--Помогите
Это сообщение
-V,--версия
Версия
ОБЪЕДИНИТЬ
Использование: слияние медуз [параметры] db: string +
Объединить базы данных о землетрясениях
Параметры (значение по умолчанию в (), * обязательно):
-s, --размер= uint64
* Размер объединенной хеш-таблицы
-m, --мер-лен= uint32
* Длина Mer
-o, --выход= строка
Выходной файл (merged.jf)
-p, --подробнее= uint32
Максимальное количество репробов (62)
--использование
Применение
-h,--Помогите
Это сообщение
--полная помощь
Подробная помощь
-V,--версия
Версия
КРТЗ
Использование: цитата из медуз [варианты]
Как цитировать статью Медузы
Цитирование статьи
Параметры (значение по умолчанию в (), * обязательно):
-b,--бибтекс
Формат Bibtex (ложь)
-o, --выход= строка
Выходной файл
--использование
Применение
-h,--Помогите
Это сообщение
-V,--версия
Версия
Версия
Версия: 1.1.4 от 2010
Используйте медуз онлайн с помощью сервисов onworks.net