Dit is de opdrachttransterm die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator
PROGRAMMA:
NAAM
transterm - Vindt rho-onafhankelijke transcriptieterminators in bacteriële genomen.
KORTE INHOUD
transterm -p expterm.dat seq.fasta annotatie.ptt > uitvoer.tt
PRODUCTBESCHRIJVING
Er kan een willekeurig aantal fasta- en annotatiebestanden worden vermeld, maar fasta-bestanden moeten daarvoor komen
annotatiebestanden. Het type bestand wordt bepaald door de extensie:
.ptt een GenBank ptt-annotatiebestand
.coords of .crd een eenvoudig annotatiebestand
Elke regel van een .coords- of .crd-bestand heeft de indeling:
gen_naam begin einde chrom_id
De chrom_id specificeert op welke reeks de annotatie moet gelden. Voor een .ptt-bestand wordt de
chrom_id wordt beschouwd als de bestandsnaam waarvan het pad en de extensie zijn verwijderd. Een bestandsnaam met
elke andere extensie wordt verondersteld een fasta-bestand te zijn.
Bij het verwerken van een annotatie voor een chromosoom met id = ID, het eerste woord van de '>'
regels van de invoerreeksen worden doorzocht op ID. Omdat er geen goede standaard voor bestaat
hoe de '>'-regel is opgemaakt, worden verschillende heuristieken geprobeerd om ID in de '>'-regel te vinden. In
de volgorde geprobeerd, ze zijn:
>ID
>junk|cmr:ID|junk of junk|ID|junk
>junk|gi|ID|junk of >junk|gi|ID.junk|junk
>junk:id
De optie '-p expterm.dat' gebruikt het nieuwste betrouwbaarheidsschema, waarbij expterm.dat de
pad naar het bestand met die naam dat bij TransTermHP wordt geleverd. Als '-p expterm.dat' wordt weggelaten,
het vertrouwensschema versie 1.0 wordt gebruikt. Zie sectie 'COMMANDLINE-OPTIES' voor meer informatie
detail.
FORMAT OF HET TRANSSTERM OUTPUT
De genen van het organisme worden gesorteerd op hun eindcoördinaat weergegeven en er worden terminators weergegeven
tussen hen. Een terminator-invoer ziet er als volgt uit:
TERM 19 15310 - 15327 - F 99 -12.7 -4.0 |bidir
(naam) (begin - einde) (zin)(loc) (conf) (hp) (staart) (noten)
waarbij 'conf' de algehele betrouwbaarheidsscore is, 'hp' de haarspeldscore is en 'tail' de
staartscore. 'Conf' (dat varieert van 0 tot 100) is wat u waarschijnlijk wilt gebruiken om te beoordelen
de kwaliteit van een terminator. Hoger is beter. Het vertrouwen, de pk-score en de staartscores
worden beschreven in het hierboven geciteerde artikel. 'Loc' geeft het type regio aan waarin de terminator zich bevindt:
'G' = in het binnenste van een gen (minstens 50 bp van een uiteinde),
'F' = tussen twee +strenggenen,
'R' = tussen twee strenggenen,
'T' = tussen de uiteinden van een +strenggen en een -strenggen,
'H' = tussen de beginpunten van een +strenggen en een -strenggen,
'N' = geen van bovenstaande (voor het begin en einde van het DNA)
Vanwege de manier waarop met overlappende genen wordt omgegaan, zijn deze benamingen niet exclusief. 'G',
'F' of 'R' kan ook in kleine letters worden weergegeven, wat aangeeft dat de terminator zich op de bevindt
tegenovergestelde streng als de regio. Tenzij de optie --all-context wordt gegeven, alleen kandidaat
terminators die zich in een geschikte genoomcontext lijken te bevinden (bijvoorbeeld T, F, R) worden uitgevoerd.
De TERM-lijn volgt altijd de volgorde van de haarspeld en de 5'- en 3'-staarten
geschreven van 5' tot 3'.
TRANSSTERM COMMAND LINE OPTIES
Ook kun je instellen hoe groot een haarspeld moet zijn om in aanmerking te komen:
--min-stem=n Stam moet n nucleotiden lang zijn
--min-loop=n Het lusgedeelte van de haarspeld moet minstens n lang zijn
Je kunt ook de maximale grootte instellen van de haarspeld die wordt gevonden:
--max-len=n Totale omvang van de haarspeld <= n NT lang
--max-loop=n Het lusgedeelte kan niet langer zijn dan n
De maximale lengte is de totale lengte voor het haarspeldgedeelte (2 stelen, 1 lus) en doet
exclusief de U-staart. Het wordt gemeten in nucleotiden in de invoerreeks, dus vanwege
gaten, kan de werkelijke structuur langer zijn dan max-len. Max-len moet kleiner zijn dan de
gecompileerde constante REALLY_MAX_UP (standaard is dit 1000). Om de grootte te vergroten van
gevonden structuren worden opnieuw gecompileerd nadat deze constante is verhoogd.
TransTermHP kent een score toe aan de haarspeld- en staartgedeelten van potentiële terminators.
Lagere scores worden als beter beschouwd. Veel van de constanten die worden gebruikt bij het scoren van haarspeldbochten kunnen dat zijn
instellen vanaf de opdrachtregel:
--gc=f Score van een GC-paar
--au=f Score van een AU-paar
--gu=f Score van een GU-paar
--mm=f Score van een ander paar
--gap=f Score van een gat in de haarspeld
De kosten van lussen van verschillende lengtes kunnen worden ingesteld met behulp van:
--loop-penalty=f1,f2,f3,f4,f5,...fn
waarbij f1 de kosten zijn van een lus met lengte --min-loop, en f2 de kosten zijn van een lus met lengte
--min-loop+1, enzovoort. Als er te weinig termen zijn om te dekken tot max-loop, de laatste term
wordt herhaald. Dus --loop-penalty=0,2 zou kosten 0 toewijzen aan elke lus met een lengte van min-loop,
en 2 voor elke langere lus (tot max-loop, waarna langere lussen oneindig worden gegeven
scoort). Extra termen worden genegeerd.
Merk op dat als u het --pval-conf betrouwbaarheidsschema gebruikt (zie hieronder), u dit wel moet doen
genereer het bestand expterm.dat opnieuw als u een van de bovenstaande constanten wijzigt.
Om elke potentiële terminator met te grote staart- of haarspeldscores uit te roeien, moet je
kan gebruik maken van de volgende opties:
--max-hp-score=f Maximaal toegestane haarspeldscore
--max-tail-score=f Maximaal toegestane staartscore
Terminator-haarspelden moeten grenzen aan een "U-rijk" gebied. Je kunt de constanten aanpassen
het definiëren wat een U-rijke regio is. Gebruik van de opties:
--uwin-grootte=s
--uwin-require=r
vereist dat er ten minste r 'U'-nucleotiden in het s-nucleotide-lange venster aanwezig zijn
grenzend aan de haarspeld. Nogmaals, als u deze constanten wijzigt, moet u regenereren
exterms.dat.
Vóór de hoofduitvoer zal TransTermHP de waarden van de bovenstaande opties uitvoeren in a
formaat geschikt voor gebruik op de opdrachtregel.
Naast de staart- en haarspeldscores krijgt elke mogelijke terminator een
betrouwbaarheid --- een waarde tussen 0 en 100 die aangeeft hoe waarschijnlijk het is dat de reeks voorkomt
is een terminator. Het scoreschema heeft een achtergrondbestand nodig (meegeleverd met TransTermHP)
dat wordt gespecificeerd met behulp van:
--pval-conf exterms.dat
Hierbij wordt de distributie in het bestand exterms.dat als achtergrond gebruikt. (Jij kan
kort dit af als "-p expterms.dat".) Hoewel het meegeleverde expterms.dat-bestand is afgeleid
uit willekeurige reeksen kan elke achtergronddistributie worden gebruikt door uw eigen distributie aan te leveren
exterms.dat-bestand. Zie hieronder voor het formaat van exterms.dat. De waarden in exterms.dat
zijn afhankelijk van de scoreconstanten, de definitie van u-rijke regio's en het toegestane maximum
staart- en pk-scores. Dus als u een van deze constanten wijzigt met behulp van de bovenstaande opties,
u moet exterms.dat opnieuw genereren.
De belangrijkste output van TransTermHP is een lijst met terminators tussen een lijst van
de gen-annotaties die als invoer zijn verstrekt. Deze uitvoer kan in enkele stappen worden aangepast
manieren:
-S Voer de terminatorreeksen niet uit
--min-conf=n Voer alleen terminators uit met zekerheid >= n (can
kort dit af als -cn; standaard is 76.)
Extra analyse-uitvoer kan worden verkregen met de volgende opties:
--bag-output file.bag Voer de beste terminator na Gene uit
--t2t-perf file.t2t Voer een samenvatting uit van welke staart-tot-staart-regio's
goede terminators hebben
HERKALIBREREN GEBRUIK MAKEND VAN TE ZIJN PARAMETERS
Zoals hierboven vermeld, als u een van de basisscorefuncties en zoekparameters wijzigt
en u gebruikt het betrouwbaarheidsschema versie 2.0 (aanbevolen), dan moet u het opnieuw berekenen
de waarden in het bestand exterm.dat. Als je Python hebt geïnstalleerd, is dit eenvoudig (hoewel
misschien tijdrovend). U kunt het commando geven:
% calibrate.sh newexpterms.dat [OPTIES NAAR TRANSSTERM]
waarbij "[OPTIES NAAR TRANSTERM]" TransTermHP-opties zijn (hierboven besproken) die de
parameters zoals u wilt dat ze zijn. Nadat calibrate.sh is voltooid, zal newexpterms.dat dat doen
bevinden zich in de huidige map en kunnen dienen als argument voor -p wanneer u deze gebruikt
parameters die u hebt doorgegeven aan calibrate.sh.
Houd er rekening mee dat newexpterms.dat alleen geldig is als u dezelfde basisparameters opgeeft
naar TransTermHP bij volgende runs. TransTerm (of newexpterms.dat) onthoudt deze niet
parameters voor u. De beste manier om dit aan te pakken is door er een shellscript-wrapper omheen te maken
transterm die altijd uw nieuwe parameters doorgeeft.
Parameters voor uitvoerformattering vereisen geen regeneratie van exterms.dat --- zie discussie
hierboven waarvan de parameters expterm.dat afhankelijk zijn.
calibrate.sh is te vinden in de map /usr/share/doc/transtermhp/examples.
FORMAT OF HET EXPTERMEN.DAT FILE
Het 'pval-conf'-betrouwbaarheidsschema, geselecteerd met de optie "--pval-conf expterms.dat" (of
'-p expterms.dat') berekent het vertrouwen van een terminator met HP energie E en staart
energie T als volgt. Ten eerste zijn de bereiken van HP-energieën en staartenergieën gelijkmatig
verdeeld in bakken, en de juiste bakken e en t worden gevonden voor E en T. Vervolgens wordt de
het vertrouwen wordt berekend zoals beschreven in [2].
De eerste regel van exterms.dat bevat 6 cijfers:
volgende aantal_bins
De bereiken (low_hp, high_hp) en (low_tail, high_tail) geven de grenzen aan op de haarspeld en
staart scoort. Het gehele getal num_bins geeft het aantal bakken van gelijke grootte weer waarin deze
bereiken zijn verdeeld. Seqlen geeft de lengte van de willekeurige reeks die werd gebruikt
genereer de gegevens in de rest van het bestand.
Deze regel volgt een willekeurig aantal (at, R, M) triples, waarbij 'at' de AT-inhoud is, R
is een 4-tuple (low_hp, high_hp, low_tail, high_tail) die het bereik van de HP en staart geeft
scores waargenomen in willekeurige reeksen van deze AT-inhoud, en M is de distributiematrix.
Deze (at, R, M) triples zijn als volgt opgemaakt:
bij low_hp high_hp low_tail high_tail
n11 n12 n13 n14 ... n1,aantal_bins
n21 ...
...
n_num_bins,1 ...
De mu_r(e,t)-term wordt berekend door de matrix te selecteren waarvan de at-waarde het dichtst bij de ligt
berekende %AT van de regio r. Als de totale lengte van de regio r-sequentie L_r is, dan
mu_r(e,t) = n_t_e * L_r/seqlen
waarbij n_t_e de vermelding in de t-de rij en e-de kolom van de geselecteerde matrix is, en
seqlen is het eerste getal in de eerste regel van het bestand.
Gebruik transterm online met behulp van onworks.net-services
