Amazon Best VPN GoSearch

Icône de favori OnWorks

htseq-count - En ligne dans le Cloud

Exécutez htseq-count dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande htseq-count qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


htseq-count - Compte le nombre de lectures dans un fichier d'alignement SAM qui correspondent aux fonctionnalités GFF

Étant donné un fichier avec des lectures de séquençage alignées et une liste de caractéristiques génomiques, une tâche courante
est de compter le nombre de lectures correspondant à chaque fonctionnalité.

Une caractéristique est ici un intervalle (c'est-à-dire une plage de positions) sur un chromosome ou une union de
de tels intervalles.

Dans le cas de l'ARN-Seq, les caractéristiques sont généralement des gènes, où chaque gène est considéré
ici comme l'union de tous ses exons. On peut également considérer chaque exon comme une caractéristique, par exemple, dans
afin de vérifier l'épissage alternatif. Pour le comparatif ChIP-Seq, les caractéristiques peuvent être
région de liaison à partir d'une liste prédéterminée.

Un soin particulier doit être pris pour décider comment traiter les lectures qui se chevauchent plus d'un
caractéristique. Les nombre htseq le script permet de choisir entre trois modes. Bien sûr, si aucun
parmi ceux-ci correspond à vos besoins, vous pouvez écrire votre propre script avec HTSeq. Voir le chapitre tour
pour un guide étape par étape sur la façon de le faire.

Les trois modes de résolution de chevauchement de nombre htseq travailler comme suit. Pour chaque poste i in
la lecture, un ensemble Si) est défini comme l'ensemble de toutes les caractéristiques chevauchant la position i. Alors,
considérer l'ensemble S, qui est (avec i parcourant toutes les positions dans la lecture)

· l'union de tous les ensembles Si) pour le mode union.

· l'intersection de tous les ensembles Si) pour le mode intersection stricte.

· l'intersection de tous les ensembles non vides Si) pour le mode intersection-non vide.

If S contient précisément une caractéristique, la lecture est comptée pour cette caractéristique. S'il contient
plus d'une caractéristique, la lecture est comptée comme ambigu (et ne compte pour aucun
fonctionnalités), et si S est vide, la lecture est comptée comme aucune_fonctionnalité.

La figure suivante illustre l'effet de ces trois modes : [image]

UTILISATION


Après avoir installé HTSeq (voir installer), tu peux courir nombre htseq de la commande
en ligne:

htseq-count [options]

Si le fichier htseq-qa n'est pas sur votre chemin, vous pouvez également appeler le script avec

python -m HTSeq.scripts.count [options]

Les contient les lectures alignées au format SAM. (Notez que le Outils SAM
contiennent des scripts Perl pour convertir la plupart des formats d'alignement en SAM.) Assurez-vous d'utiliser un
aligneur sensible à l'épissage tel que TopHat. HTSeq-count utilise pleinement les informations contenues dans
le domaine CIGAR.

Pour lire à partir de l'entrée standard, utilisez - as .

Si vous avez des données appariées, vous devez d'abord trier le fichier SAM par nom de lecture. (Si votre
l'outil de tri ne peut pas gérer les gros fichiers, essayez par exemple celui de Ruan Jue trier, disponible auprès du SOAP
site Internet.)

Les contient les caractéristiques du GFF le format.

Le script génère un tableau avec des comptes pour chaque fonctionnalité, suivi des compteurs spéciaux,
qui comptent les lectures qui n'ont été comptabilisées pour aucune fonctionnalité pour diverses raisons, à savoir :

· aucune_fonctionnalité: lectures qui n'ont pu être affectées à aucune fonctionnalité (définir S comme décrit ci-dessus
était vide).

· ambigu : lectures qui auraient pu être affectées à plus d'une fonctionnalité et qui ont donc été
pas compté pour aucun d'entre eux (définir S avait plus d'un élément).

· trop_low_aQual: lectures qui n'ont pas été comptées en raison de la -a option, voir ci-dessous

· non aligné: lit dans le fichier SAM sans alignement

· alignement_non_unique : lit avec plusieurs alignements signalés. Ces lectures sont
reconnu de la NH balise de champ SAM facultative. (Si l'aligneur ne définit pas ce champ,
les lectures alignées multipliées seront comptées plusieurs fois.)

Important: La valeur par défaut pour l'échouage est oui. Si vos données RNA-Seq n'ont pas été
avec un protocole spécifique au brin, cela entraîne la perte de la moitié des lectures. Par conséquent, faites
assurez-vous de définir l'option --stranded=non à moins que vous n'ayez des données spécifiques au brin !

Options
-m , --mode=
Mode pour gérer les lectures chevauchant plusieurs entités. Valeurs possibles pour
sommes-nous union, intersection stricte et intersection-non vide (défaut: union)

-s <oui, aucune or inverse>, --stranded= non, or inverse>
si les données proviennent d'un essai spécifique au brin (par défaut : oui)

Pour stranded=no, une lecture est considérée comme chevauchant une caractéristique indépendamment de
s'il est mappé sur le même brin ou sur le brin opposé à l'entité. Pour
stranded=yes et single-end reads, la lecture doit être mappée sur le même brin que
la fonctionnalité. Pour les lectures appariées, la première lecture doit être sur le même brin et
le second lu sur le brin opposé. Pour stranded=reverse, ces règles sont
renversé.

-a , --a=
ignorer toutes les lectures avec une qualité d'alignement inférieure à la valeur minimale donnée (par défaut :
0)

-t <fonctionnalité tapez>, --type= tapez>
type d'entité (3e colonne dans le fichier GFF) à utiliser, toutes les caractéristiques d'un autre type sont
ignoré (par défaut, adapté pour RNA-Seq et Ensemble GTFPlus fichiers: exon)

-i <identifiant attribut>, --idattr= attribut>
Attribut GFF à utiliser comme ID de fonction. Plusieurs lignes GFF avec le même identifiant de fonction
seront considérés comme faisant partie de la même caractéristique. L'ID de fonctionnalité est utilisé pour identifier
les comptes dans la table de sortie. La valeur par défaut, adaptée à RNA-SEq et Ensembl GTF
fichiers, est gène_id.

-o , --samout=
écrire tous les enregistrements d'alignement SAM dans un fichier SAM de sortie appelé ,
annotant chaque ligne avec son affectation à une caractéristique ou à un compteur spécial (comme un
champ facultatif avec balise 'XF')

-q, --silencieux
supprimer le rapport d'avancement et les avertissements

-h, --Aidez-moi
Afficher un résumé d'utilisation et quitter

Utilisez htseq-count en ligne en utilisant les services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.