Это команда htseq-count, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
htseq-count - подсчитывает количество чтений в файле выравнивания SAM, которые сопоставляются с функциями GFF
При наличии файла с выровненными считываниями секвенирования и списком геномных функций общая задача
подсчитать, сколько операций чтения сопоставлено с каждой функцией.
Здесь признак - это интервал (т. Е. Диапазон позиций) на хромосоме или объединение
такие интервалы.
В случае RNA-Seq признаками обычно являются гены, причем каждый ген рассматривается
здесь как объединение всех его экзонов. Можно также рассматривать каждый экзон как особенность, например, в
чтобы проверить наличие альтернативного сращивания. Для сравнительного ChIP-Seq функции могут быть
область связывания из заранее определенного списка.
Особое внимание следует уделить тому, чтобы решить, как поступать с чтениями, которые перекрывают более одного
характерная черта. В htseq-счетчик скрипт позволяет выбирать между тремя режимами. Конечно, если нет
из них соответствует вашим потребностям, вы можете написать свой собственный сценарий с помощью HTSeq. См. Главу тур
для получения пошагового руководства, как это сделать.
Три режима разрешения перекрытия htseq-счетчик работают следующим образом. На каждую позицию i in
чтение, набор S (я) определяется как набор всех функций, перекрывающих положение i, Затем,
рассмотреть набор S, который (с i пробегает все позиции в прочитанном)
· Объединение всех множеств S (я) для режима союз.
· Пересечение всех множеств S (я) для режима пересечение-строгий.
· Пересечение всех непустых множеств S (я) для режима непустое пересечение.
If S содержит ровно одну функцию, чтение засчитывается для этой функции. Если он содержит
более одной функции, чтение засчитывается как двусмысленный (и не учитывается ни при каких
особенности), а если S пусто, чтение считается как нет_функции.
На следующем рисунке показан эффект этих трех режимов: [изображение]
ИСПОЛЬЗОВАНИЕ
После установки HTSeq (см. устанавливать), Вы можете запустить htseq-счетчик из команды
строки:
htseq-count [параметры]
Если файл htseq-qa находится не на вашем пути, вы также можете вызвать сценарий с помощью
python -m HTSeq.scripts.count [параметры]
В содержит выровненные чтения в формате SAM. (Обратите внимание, что SAMtools
содержат скрипты Perl для преобразования большинства форматов выравнивания в SAM.) Обязательно используйте
выравниватель с поддержкой сварки, такой как TopHat. HTSeq-count в полной мере использует информацию в
поле СИГАРА.
Чтобы читать из стандартного ввода, используйте - as .
Если у вас есть данные с парным концом, вам нужно сначала отсортировать файл SAM по имени чтения. (Если твой
инструмент сортировки не может обрабатывать большие файлы, попробуйте, например, Ruan Jue's мсортдоступны из SOAP-
Веб-сайт.)
В содержит функции в GFF формат.
Скрипт выводит таблицу со счетчиками для каждой функции, за которыми следуют специальные счетчики,
which count reads, которые не учитывались для какой-либо функции по разным причинам, а именно:
· нет_функции: читает, что не может быть назначено ни одной функции (установить S как описано выше
был пуст).
· двусмысленный: чтения, которые могли быть назначены более чем одной функции и, следовательно, были
не учитывается ни для одного из них (установить S было больше одного элемента).
· Too_low_aQual: чтения, которые не учитывались из-за -a вариант, см. ниже
· не_выровнено: читает файл SAM без выравнивания
· выравнивание_не_уникальное: читает с более чем одним сообщенным выравниванием. Эти чтения
признано из NH необязательный тег поля SAM. (Если выравниватель не устанавливает это поле,
многократно выровненные чтения будут подсчитаны несколько раз.)
важно: Значение по умолчанию для многоступенчатости: Да. Если ваши данные RNA-Seq не были сделаны
с протоколом, зависящим от цепочки, это приводит к потере половины считываний. Следовательно, сделайте
обязательно установите опцию --stranded = нет если у вас нет данных о нити!
Опции
-m , --mode =
Режим для обработки операций чтения, перекрывающих более одного объекта. Возможные значения для
Он союз, пересечение-строгий и непустое пересечение (дефолт: союз)
-s <да, нет or обратный>, --stranded = нет, or обратный>
получены ли данные из анализа, специфичного для нити (по умолчанию: Да)
Для stranded = no считывание считается перекрывающимся с функцией независимо от
сопоставлен ли он с той же или противоположной цепью, что и элемент. Для
stranded = yes и одностороннее чтение, чтение должно быть сопоставлено с той же цепью, что и
особенность. Для парно-конечных чтений первое чтение должно быть в одной и той же цепочке и
второе чтение на противоположной нити. Для stranded = reverse эти правила
наоборот.
-a , --a =
пропустить все чтения с качеством выравнивания ниже заданного минимального значения (по умолчанию:
0)
-t <функция тип>, --type = тип>
тип объекта (3-й столбец в файле GFF), все функции другого типа
игнорируется (по умолчанию, подходит для RNA-Seq и Ансамбль ГТФ файлов: экзон)
-i <id атрибут>, --idattr = атрибут>
Атрибут GFF, который будет использоваться как идентификатор объекта. Несколько строк GFF с одинаковым идентификатором объекта
будут рассматриваться как части одного и того же объекта. Идентификатор функции используется для идентификации
счетчики в выходной таблице. По умолчанию, подходит для RNA-SEq и Ensembl GTF
файлы, это ген_ид.
-o , --samout =
записать все записи о выравнивании SAM в выходной файл SAM с именем ,
аннотирование каждой строки ее назначением объекту или специальному счетчику (как
необязательное поле с тегом 'XF')
-д, --тихий
подавить отчет о проделанной работе и предупреждения
-час, --Помогите
Показать сводку использования и выйти
Используйте htseq-count онлайн с помощью сервисов onworks.net