GoGPT Best VPN GoSearch

OnWorks-favicon

tigr-long-orfs - Online in de cloud

Voer tigr-long-orfs uit in de gratis hostingprovider OnWorks via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is de opdracht tigr-long-orfs die kan worden uitgevoerd in de gratis hostingprovider OnWorks met behulp van een van onze verschillende gratis online werkstations, zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


long-orfs — Vind/score potentiële genen in het genoombestand met behulp van het waarschijnlijkheidsmodel in icm-
filet

KORTE INHOUD


tigr-long-orgs [genoombestand opties]

PRODUCTBESCHRIJVING


Het programma long-orfs neemt een sequentiebestand (in FASTA-formaat) en geeft een lijst met alle lange
"potentiële genen" erin die niet te veel overlappen. Met "potentieel gen" bedoel ik de
gedeelte van een orf vanaf het eerste startcodon tot het stopcodon aan het einde.

De eerste paar regels van de uitvoer specificeren de instellingen van verschillende parameters in het programma:

De minimale genlengte is de lengte van het kleinste fragment dat als een gen wordt beschouwd.
De lengte wordt gemeten vanaf de eerste base van het startcodon tot de laatste base *vóór* de
stopcodon. Deze waarde kan worden opgegeven tijdens het uitvoeren van het programma met de optie -g.
Standaard berekent het programma nu (april 2003) een optimale lengte voor deze
parameter, waarbij 'optimaal' de waarde is die het grootste aantal lange ORF's oplevert,
waardoor de hoeveelheid data die voor training gebruikt kan worden, toeneemt.

De minimale overlaplengte is een ondergrens voor het aantal basen dat overlapt tussen twee genen.
dat als een probleem wordt beschouwd. Overlappingen die korter zijn, worden genegeerd.

Het minimale overlappercentage is een andere ondergrens voor het aantal basenoverlap dat
als een probleem beschouwd. Overlap van *beide* genen korter dan dit percentage wordt genegeerd.

Het volgende deel van de uitvoer is een lijst met potentiële genen:

Kolom 1 is een ID-nummer ter referentie. Het wordt opeenvolgend toegekend, beginnend
met 1 voor alle genen met een lange potentie. Als overlappende genen worden geëlimineerd, ontstaan ​​er hiaten in de
getallen zullen voorkomen. Het ID-prefix wordt gespecificeerd in de constante ID_PREFIX.

Kolom 2 is de positie van de eerste base van het eerste startcodon in het orf. Momenteel
Ik gebruik atg en gtg als startcodons. Dit is eenvoudig te wijzigen in de functie Is_Start().

Kolom 3 is de positie van de laatste base *vóór* het stopcodon. Stopcodons zijn taa,
tag en tga. Merk op dat orfs in de omgekeerde leeskaders hun startpositie hebben
hoger dan de eindpositie. De volgorde waarin orfs worden weergegeven, is oplopend.
door Max {OrfStart, End}, d.w.z. de hoogste genummerde positie in het orf, behalve orfs
die het einde van de reeks 'omsluiten'.

Wanneer twee genen met ID-nummers elkaar minstens in voldoende mate overlappen (zoals bepaald door
Min_Olap en Min_Olap_Percent) worden geëlimineerd en verschijnen niet in de uitvoer.

De uiteindelijke uitvoer van het programma (verzonden naar het standaardfoutbestand, zodat het niet wordt weergegeven
(wanneer de uitvoer naar een bestand wordt omgeleid) is de lengte van de langste gevonden orf.

Verschillende start- en stopcodons specificeren:

Om verschillende sets start- en stopcodons te specificeren, wijzigt u het bestand gene.h.
Meer specifiek zijn de functies:

Is_Forward_Start Is_Reverse_Start Is_Start Is_Forward_Stop Is_Reverse_Stop
Is_Stop

worden gebruikt om te bepalen wat als start- en stopcodons wordt gebruikt.

Is_Start en Is_Stop voeren eenvoudige tekenreeksvergelijkingen uit om aan te geven welke patronen worden gebruikt.
Om een ​​nieuw patroon toe te voegen, voegt u gewoon de vergelijking toe. Om een ​​patroon te verwijderen, kunt u het uitcommentariëren of
verwijder de vergelijking ervan.

De andere vier functies gebruiken een bitvergelijking om start- en stoppatronen te bepalen.
een codon voorstellen als een 12-bits patroon, met 4 bits voor elke base, één bit voor elke
mogelijke waarde van de basen, T, G, C of A. Dus het bitpatroon 0010 0101 1100
vertegenwoordigt het basispatroon [C] [A of G] [G of T]. Door bitbewerkingen (& | ~) uit te voeren en
vergelijkingen, meer gecompliceerde patronen met dubbelzinnige lezingen kunnen worden getest
Efficiënt. Eenvoudige patronen kunnen worden getest zoals in de huidige code.

Om bijvoorbeeld een extra startcodon van CAT in te voegen, zijn drie wijzigingen nodig: 3. De regel ||
(Codon & 0x218) == Codon moet worden ingevoegd in Is_Forward_Start, aangezien 0x218 = 0010
0001 1000 staat voor CAT. 2. De regel || (Codon & 0x184) == Codon moet worden ingevoegd in
Is_Reverse_Start , aangezien 0x184 = 0001 1000 0100 ATG vertegenwoordigt, wat de omgekeerde-
complement van CAT. Als alternatief kan de constante #define ATG_MASK worden gebruikt. 3. De
regel || strncmp (S, "cat", 3) == 0 moet in Is_Start worden ingevoegd.

OPTIES


-g n Stel de minimale genlengte in op n. Standaard wordt een optimale waarde berekend.
Automatisch. Verander dit niet tenzij je weet wat je doet.

-l Beschouw het genoom als lineair (niet circulair), dat wil zeggen, laat genen niet 'inpakken'
rond het einde van het genoom. Deze optie werkt zowel op glimmer- als long-orfs.
Standaard wordt het genoom als circulair beschouwd.

-o n Stel de maximale overlappingslengte in op n. Kortere overlappingen zijn toegestaan.
(Standaard is 0 bp.)

-p n Stel het maximale overlappingspercentage in op n%. Overlappingen korter dan dit percentage
*Beide* strings worden genegeerd. (Standaard is dit 10%)

Gebruik tigr-long-orfs online met behulp van onworks.net-services


Gratis servers en werkstations

Windows- en Linux-apps downloaden

Linux-commando's

Ad




×
advertentie
❤️Koop, boek of koop hier — het is gratis, en zo blijven onze diensten gratis.