Questo è il comando htseq-count che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
htseq-count - Conta il numero di letture in un file di allineamento SAM che mappano le funzionalità GFF
Dato un file con letture di sequenziamento allineate e un elenco di caratteristiche genomiche, un compito comune
è contare quante letture mappano su ciascuna caratteristica.
Una caratteristica è qui un intervallo (cioè un intervallo di posizioni) su un cromosoma o un'unione di
tali intervalli.
Nel caso di RNA-Seq, le caratteristiche sono tipicamente geni, dove viene considerato ogni gene
qui come l'unione di tutti i suoi esoni. Si può anche considerare ogni esone come una caratteristica, ad esempio in
per verificare la presenza di giunzioni alternative. Per ChIP-Seq comparativo, le caratteristiche potrebbero essere
regione vincolante da un elenco predeterminato.
Occorre prestare particolare attenzione nel decidere come gestire le letture che si sovrappongono più di una
caratteristica. Il conteggio-htseq script permette di scegliere tra tre modalità. Certo, se nessuno
di questi si adatta alle tue esigenze, puoi scrivere il tuo script con HTSeq. Vedi il capitolo nostra sede
per una guida passo passo su come farlo.
Le tre modalità di risoluzione di sovrapposizione di conteggio-htseq lavorare come segue. Per ogni posizione i in
la lettura, un set S(io) è definito come l'insieme di tutte le caratteristiche che si sovrappongono alla posizione i. Poi,
considera l'insieme S, che è (con i che attraversa tutte le posizioni all'interno della lettura)
· l'unione di tutti gli insiemi S(io) per la modalità unione.
· l'intersezione di tutti gli insiemi S(io) per la modalità intersezione-stretta.
· l'intersezione di tutti gli insiemi non vuoti S(io) per la modalità intersezione-non vuoto.
If S contiene esattamente una caratteristica, la lettura viene conteggiata per questa caratteristica. Se contiene
più di una caratteristica, la lettura viene conteggiata come ambiguo (e non contato per nessuno
caratteristiche), e se S è vuoto, la lettura viene conteggiata come nessuna_caratteristica.
La figura seguente illustra l'effetto di queste tre modalità: [immagine]
USO
Dopo aver installato HTSeq (vedi install), puoi correre conteggio-htseq dal comando
line:
htseq-count [opzioni]
Se il file htseq-qa non è nel tuo percorso, puoi, in alternativa, chiamare lo script con
python -m HTSeq.scripts.count [opzioni]
Il contiene le letture allineate nel formato SAM. (Nota che il Strumenti SAM
contengono script Perl per convertire la maggior parte dei formati di allineamento in SAM.) Assicurati di usare a
allineatore sensibile alle giunzioni come TopHat. HTSeq-count fa pieno uso delle informazioni in
il campo SIGAR.
Per leggere dall'input standard, utilizzare - as .
Se disponi di dati paired-end, devi prima ordinare il file SAM per nome di lettura. (Se tuo
lo strumento di ordinamento non può gestire file di grandi dimensioni, prova ad es. Ruan Jue's tipo, disponibile dal SOAP
sito web.)
Il contiene le caratteristiche del GFF formato.
Lo script emette una tabella con i conteggi per ogni caratteristica, seguita dai contatori speciali,
che conteggio legge che non sono state conteggiate per nessuna caratteristica per vari motivi, vale a dire:
· nessuna_caratteristica: legge che non è stato possibile assegnare a nessuna funzione (set S come descritto sopra
era vuoto).
· ambiguo: letture che avrebbero potuto essere assegnate a più di una funzione e quindi erano
non contato per nessuno di questi (set S aveva più di un elemento).
· troppo_basso_aQual: letture che non sono state conteggiate a causa del -a opzione, vedi sotto
· non allineato: legge il file SAM senza allineamento
· allineamento_non_unico: legge con più di un allineamento segnalato. Queste letture sono
riconosciuto dal NH tag di campo SAM opzionale. (Se l'allineatore non imposta questo campo,
le letture allineate multiple verranno conteggiate più volte.)
Importante: L'impostazione predefinita per l'incaglio è sì. Se i tuoi dati RNA-Seq non sono stati creati
con un protocollo specifico del filamento, ciò causa la perdita di metà delle letture. Quindi, fai
assicurati di impostare l'opzione --stranded=n a meno che tu non abbia dati specifici del filone!
Opzioni
-m , --mode=
Modalità per gestire le letture che si sovrappongono a più di una caratteristica. Valori possibili per
sono unione, intersezione-stretta e intersezione-non vuoto (predefinito: unione)
-s <sì, no or invertire>, --stranded= no, or invertire>
se i dati provengono da un test specifico del filamento (predefinito: sì)
Per stranded=no, una lettura è considerata sovrapposta a una caratteristica indipendentemente da
se è mappato sullo stesso filo o sul filo opposto della feature. Per
stranded=yes e letture single-end, la lettura deve essere mappata sullo stesso strand di
la caratteristica. Per le letture paired-end, la prima lettura deve essere sullo stesso filo e
il secondo letto sul filo opposto. Per stranded=reverse, queste regole sono
invertito.
-a , --a=
salta tutte le letture con una qualità di allineamento inferiore al valore minimo dato (predefinito:
0)
-t <caratteristica digita>, --type= digita>
tipo di caratteristica (terza colonna nel file GFF) da utilizzare, tutte le caratteristiche di altro tipo sono
ignorato (predefinito, adatto per RNA-Seq e Insieme Gtf File: esone)
-i <id attributo>, --idattr= attributo>
Attributo GFF da utilizzare come ID dell'elemento. Diverse linee GFF con lo stesso ID caratteristica
saranno considerati come parti della stessa funzione. L'ID della funzione viene utilizzato per l'identità
i conteggi nella tabella di output. Il valore predefinito, adatto per RNA-SEq e Ensembl GTF
file, è gene_id.
-o , --samout=
scrivere tutti i record di allineamento SAM in un file SAM di output chiamato ,
annotare ogni riga con la sua assegnazione a una funzione o a un contatore speciale (come
campo facoltativo con tag 'XF')
-Q, --silenzioso
sopprimere il rapporto sui progressi e gli avvisi
-H, --Aiuto
Mostra un riepilogo dell'utilizzo ed esci
Usa htseq-count online utilizzando i servizi onworks.net