IngleseFranceseSpagnolo

Esegui server | Ubuntu > | Fedora > |


Favicon di OnWorks

ipdSummary - Online nel cloud

Esegui ipdSummary nel provider di hosting gratuito OnWorks su Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

Questo è il comando ipdSummary che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

PROGRAMMA:

NOME


ipdSummary - Rileva le modifiche della base del DNA dalle firme cinetiche.

DESCRIZIONE


kineticsTool carica gli IPD osservati in ogni posizione nel genoma e confronta tali IPD
al valore atteso per il DNA non modificato e restituisce il risultato di questo test statistico.
Il valore IPD atteso per il DNA non modificato può provenire da un in silicone controllo o un
amplificato controllo. Il controllo in silico è addestrato da PacBio e spedito con il
pacchetto. Predice predice l'IPD utilizzando il contesto della sequenza locale attorno alla corrente
posizione. Un set di dati di controllo amplificato viene generato sequenziando il DNA non modificato con il
stessa sequenza del campione di prova. Un campione di controllo amplificato viene solitamente generato da
amplificazione dell'intero genoma del campione originale.

Modifica rivelazione
La modalità di base di kineticsTools esegue un confronto indipendente degli IPD in ogni posizione su
il genoma, per ogni filamento, ed emette varie statistiche a CSV e GFF (dopo aver applicato a
filtro di significatività).

modifiche Accedi
cineticaStrumenti anche ha a Modifica Accedi modo che può decodificare multi-sito IPD
"impronte digitali" ai miglioramenti a ridotto set of chiamate of specifico modifiche. Questa caratteristica ha le
seguito benefici:

· Si possono distinguere diverse modifiche che si verificano sulla stessa base (per
esempio m5C e m4C)

· Il segnale di una modifica viene combinato in un'unica statistica, migliorando
sensibilità, rimuovendo picchi extra e centrando correttamente la chiamata

VERSIONI


Si prega di chiamare questo programma con --Aiuto per vedere le opzioni disponibili.

ALGORITMO


Sintetico Controllo
Gli studi sulla relazione tra IPD e il contesto della sequenza rivelano che la maggior parte dei
la variazione nella IPD media attraverso un genoma può essere prevista da un contesto di sequenza di 12 basi
circonda il sito attivo della DNA polimerasi. I limiti del contesto rilevante
finestra corrispondono alla finestra del DNA a contatto con la polimerasi, come si vede in
Strutture cristalline DNA/polimerasi. Per semplificare il processo di ricerca delle modifiche del DNA
con i dati PacBio, lo strumento include una tabella di ricerca pre-addestrata che mappa il DNA 12-mer
sequenze per indicare IPD osservati nella chimica C2.

Filtraggio e Guarnizione
kineticsTools utilizza il Mapping QV generato da BLASR e memorizzato nel file cmp.h5 per
ignora le letture che non sono mappate con sicurezza. Il QV minimo di mappatura predefinito richiesto è
10, il che implica che BLSR ha 90\% sicurezza che la lettura sia mappata correttamente. Per colpa di
la gamma di lunghezze di lettura inerenti ai dati PacBioQuesto può essere modificato utilizzando il
--mapQvThreshold argomento della riga di comando, o tramite la finestra di configurazione di SMRTPortal per
Rilevamento delle modifiche.

Ci sono alcune caratteristiche dei dati PacBio che richiedono un'attenzione speciale per poter raggiungere
buone prestazioni di rilevamento delle modifiche. kineticsTools controlla l'allineamento tra i
basi osservate e la sequenza di riferimento - affinché una misurazione IPD sia
inclusa nell'analisi, la sequenza di lettura di PacBio deve corrispondere alla sequenza di riferimento per k
intorno alla base affine. Nel modulo attuale k = 1 La distribuzione IPD in qualche locus be
pensato come una miscela tra il processo di incorporazione "normale" IPD, che è sensibile
al contesto della sequenza locale e alle modifiche del DNA e a un processo di "pausa" contaminante
IPD che hanno una durata molto più lunga (media >10 volte più lunga del normale), ma si verificano raramente
(~1% di IPD). Nota: la nostra attuale comprensione è che le pause non sono utili
informazioni sullo stato di metilazione del DNA, tuttavia un'analisi più attenta potrebbe essere
garantito. Si noti inoltre che le modifiche che aumentano drasticamente l'1% circa di
gli IPD osservati sono generati da eventi di pausa. Limitare gli IPD osservati al 99° mondiale
percentile è motivato dalla teoria da test di ipotesi robusti. Alcuni contesti di sequenza
possono avere IPD naturalmente più lunghi, per evitare di limitare troppi dati in quei contesti, il cap
soglia viene regolata per contesto come segue: capThreshold = max(global99,
5*modelPrediction, percentile(ipdObservations, 75))

Statistico Testing
Verifichiamo l'ipotesi che gli IPD osservati in un particolare locus nel campione abbiano a
significa più lunghi rispetto agli IPD osservati nello stesso locus nel DNA non modificato. Se abbiamo generato
un set di dati Whole Genome Amplified, che rimuove le modifiche del DNA, usiamo un caso-controllo,
test t su due campioni. Questo strumento fornisce anche un modello di "controllo sintetico" precalibrato
che predice l'IPD non modificato, dato un contesto di sequenza di 12 basi. Nel sintetico
caso di controllo usiamo un t-test a un campione, con un aggiustamento per tenere conto dell'errore nel
modello di controllo sintetico.

INGRESSI


allineato_reads.cmp.h5
Un file cmp.h5 standard contiene gli allineamenti e le informazioni IPD forniscono i dati cinetici
utilizzato per eseguire il rilevamento delle modifiche. Il file cmp.h5 standard di un lavoro SMRTportal è
data/aligned_read.cmp.h5.

Riferimento Sequenza
Lo strumento richiede la sequenza di riferimento utilizzata per eseguire gli allineamenti. Attualmente questo deve
essere fornito tramite il percorso a una voce del repository di riferimento SMRTportal.

USCITE


Lo strumento di rilevamento delle modifiche fornisce risultati in una varietà di formati adatti per
analisi statistiche approfondite, riferimento rapido e consumo tramite strumenti di visualizzazione
come PacBio SMRTView. I risultati sono generalmente indicizzati per posizione di riferimento e
filone di riferimento. In tutti i casi il valore del trefolo si riferisce al trefolo recante il
modificazione nel campione di DNA. Ricorda che l'effetto cinetico della modifica è
osservato in sequenze di lettura allineate al filamento opposto. Così recita allineandosi al
il filamento positivo porta informazioni sulla modifica sul filamento negativo e sul vizio
viceversa, ma in questo toolkit riportiamo sempre il filone contenente il putativo
modifica.

modifiche.csv
Il file modifications.csv contiene una riga per ogni coppia (posizione di riferimento, trefolo)
che è apparso nel set di dati con una copertura almeno x. x per impostazione predefinita è 3, ma è
configurabile con il flag '--minCoverage' su ipdSummary.py. L'indice della posizione di riferimento è
Basato su 1 per la compatibilità con il file gff dell'ambiente R.

produzione colonne
in silicone controllo modo

? ?
│Colonna │ Descrizione │
? ?
│refId │ ID della sequenza di riferimento di questo │
│ │ osservazione │
? ?
│tpl │ posizione modello basata su 1 │
? ?
filo │ filone campione nativo dove │
│ cinetiche sono state generate. '0' è │
│ │ il filone dell'originale │
│ │ FASTA, '1' è il filo opposto │
│ │ da FASTA │
? ?
│base │ la base affine a questo │
│ │ posizione nel riferimento │
? ?
│score │ pvalue Phred trasformato che a │
│ │ la deviazione cinetica esiste a questo │
│ │ posizione │
? ?

tMean │ media limitata di IPD normalizzati │
│ │ osservato in questa posizione │
? ?
│tErr │ errore standard limitato di │
│ │ IPD normalizzati osservati a questo │
│ posizione (deviazione standard / │
│ │ sqrt (copertura) │
? ?
│modelPrediction │ IPD media normalizzata prevista da │
│ │ il modello di controllo sintetico per │
│ │ questa sequenza contesto │
? ?
ipdRatio │ tMean / modelPrediction │
? ?
│copertura │ conteggio di DPI validi a questo │
│ │ posizione (vedi sezione Filtraggio │
│ │ per i dettagli) │
? ?
│frac │ stima della frazione di │
│ │ molecole che trasportano la │
│ │ modifica │
? ?
│fracLow │ 2.5% di limite di confidenza di frac │
│ │ stima │
? ?
│fracUpp 97.5% limite di confidenza di frac │
│ │ stima │
? ?

controllo dei casi modo

? ?
│Colonna │ Descrizione │
? ?
│refId │ ID della sequenza di riferimento di questo │
│ │ osservazione │
? ?
│tpl │ posizione modello basata su 1 │
? ?
filo │ filone campione nativo dove │
│ cinetiche sono state generate. '0' è │
│ │ il filone dell'originale │
│ │ FASTA, '1' è il filo opposto │
│ │ da FASTA │
? ?
│base │ la base affine a questo │
│ │ posizione nel riferimento │
? ?
│score │ pvalue Phred trasformato che a │
│ │ la deviazione cinetica esiste a questo │
│ │ posizione │
? ?
caseMean │ media degli IPD dei casi normalizzati │
│ │ osservato in questa posizione │
? ?
controlloMean │ media degli IPD di controllo normalizzati │
│ │ osservato in questa posizione │
? ?
│caseStd │ deviazione standard dei casi di IPD │
│ │ osservato in questa posizione │
? ?
controlStd │ deviazione standard del controllo │
│ │ IPD osservati in questa posizione │
? ?

ipdRatio │ tMean / modelPrediction │
? ?
│testStatistic │ t-test statistica │
? ?
│copertura │ media di caso e controllo │
│ │ copertura │
? ?
│controlCoverage │ conteggio di IPD di controllo validi a │
│ │ questa posizione (vedi Filtraggio │
│ │ sezione per i dettagli) │
? ?
│caseCoverage │ conteggio dei casi validi di IPD in questo │
│ │ posizione (vedi sezione Filtraggio │
│ │ per i dettagli) │
? ?

modifiche.gff
Il file modifications.gff è conforme alla specifica GFF Versione 3 (‐
http://www.sequenceontology.org/gff3.shtml). Ogni posizione del modello / coppia di trefoli il cui
Il p-value supera la soglia pvalue viene visualizzato come una riga. La posizione del modello è basata su 1,
secondo le specifiche GFF. La colonna del filamento si riferisce al filamento che trasporta il rilevato
modifica, che è il filo opposto rispetto a quelli utilizzati per rilevare la modifica. Il
La colonna di confidenza GFF è un pvalue di rilevamento trasformato da Phred.

Note: on genoma del browser compatibilità

Il file modifications.gff non funzionerà direttamente con la maggior parte dei browser genomi. Desideri
probabilmente è necessario fare una copia del file GFF e convertire le colonne _seqid_ da
nomi generici 'ref0000x' generati da PacBio, alle intestazioni FASTA presenti nell'originale
file di riferimento FASTA. La tabella di mappatura è scritta nell'intestazione del file modifications.gff
file nella #sequenza-intestazione tag. Questo problema verrà risolto nella versione 1.4 di
cineticaStrumenti.

La colonna dei dati ausiliari del file GFF contiene altre statistiche che possono essere utili
analisi o filtraggio a valle. In particolare il livello di copertura delle letture utilizzato per
effettuare la chiamata e il contesto della sequenza di +/- 20 bp che circonda il sito.

?
│Colonna │ Descrizione │
?
│seqid │ Fasta contig nome │
?
source │ Nome dello strumento -- 'kinModCall' │
?
tipo │ Tipo di modifica -- in │
│ │ modalità di identificazione questo sarà │
│ │ m6A, m4C o m5C per identificato │
│ │ basi, o il tag generico │
│ │ 'modified_base' se un cinetico │
│ │ è stato rilevato un evento che non │
│ │ corrisponde a una modifica nota │
│ │ firma │
?
│start │ Modifica posizione su contig │
?
│end │ Modifica posizione su contig │
?
│punteggio │ Phred trasformato p-value di │
│ │ rilevamento: questo è il │
│ │ valore p di rilevamento a sito singolo │
?
strand │ strand campione contenente │
│ │ modifica │
?

│fase │ Non applicabile │
?
│attributi │ Campi extra relativi alla base │
│ │ mod. IPDRatio è tradizionale │
│ │ IPDRatio, il contesto è il │
│ │ sequenza di riferimento da -20 bp a │
│ │ +20bp intorno alla modifica, │
│ │ e il livello di copertura è il numero │
│ │ di osservazioni IPD utilizzate dopo │
│ │ Mappatura del filtro QV e │
│ │ filtraggio di precisione. Se la riga │
│ │ risulta da un . identificato
│ │ modifica includiamo anche un │
│ │ identificazioneQv tag con il │
│ │ dalla modifica │
│ │ procedura di identificazione. ?
│ │ identificazioneQv è il │
│ │ probabilità trasformata in ph di
│ │ un'identificazione errata, per │
│ │ basi che sono state identificate come │
│ │ avendo un particolare │
│ modifica. frac, fracLow,
│ │ fracUp sono le estimated stimate
│ │ frazione di molecole che trasportano │
│ │ la modifica e il 5% │
│ │ intervalli di confidenza del │
│ stima. Il metilato │
│ │ la stima della frazione è un │
│ │ funzionalità di livello beta e dovrebbe │
│ │ essere utilizzato solo per l'esplorazione │
│ scopi. ?
?

motivi.gff
Se viene eseguito lo strumento Motif Finder, genererà motivi.gff, che è una versione rielaborata
di modifications.gff con le seguenti modifiche. Se si verifica una modifica rilevata su a
motivo rilevato dal cercatore motivo, la modifica viene annotata con i dati motivo. Un
viene aggiunto l'attributo 'motivo' contenente la stringa del motivo e viene aggiunto un attributo 'id'
contenente l'id motivo, che è la stringa motivo per motivi spaiati o
'motifString1/motifString2' per motivi accoppiati. Se esiste un'istanza di motivo nel genoma,
ma non è stato rilevato in modifications.gff, viene aggiunta una voce a patterns.gff, che indica il
presenza di quel motivo e della cinetica osservata in quel sito.

motivo_summary.csv
Se viene eseguito lo strumento Motif Finder, viene generato reason_summary.csv, riassumendo il
motivi scoperti dallo strumento. Il CSV contiene una riga per motivo rilevato, con il
seguenti colonne

? ?
│Colonna │ Descrizione │
? ?
│MotifString │ Sequenza motivo rilevata │
? ?
│centerPos │ Posizione nel motivo di │
│ │ modifica (in base 0) │
? ?
│fraction │ Frazione di istanze di questo │
│ │ motivo con modifica QV sopra │
│ │ la soglia QV │
? ?
│nDetected │ Numero di istanze di questo │
│ │ motivo con sopra soglia │
? ?

│nGenome │ Numero di istanze di questo │
│ │ motivo in sequenza di riferimento │
? ?
│groupTag │ Una stringa che identifica il motivo │
│ │ raggruppamento. Per motivi abbinati questo │
│ │ è │
│ " / ",
│ │ Per motivi spaiati questo è uguale a │
│ │ MotivoStringa │
? ?
│partnerMotifString │ patternStringa di un motivo accoppiato │
│ │ (motivo con │
│ │ complementare inverso │
│ │ MotivoString) │
? ?
meanScore │ Media modifica Qv di rilevato │
│ │ istanze │
? ?
meanIpdRatio │ Rapporto medio IPD di rilevato │
│ │ istanze │
? ?
meanCoverage │ Copertura media del rilevato │
│ │ istanze │
? ?
│objectiveScore │ Punteggio obiettivo di questo motivo in │
│ │ l'algoritmo di ricerca dei motivi │
? ?

Usa ipdSummary online utilizzando i servizi onworks.net


Ad


Ad