EngelsFransDuitsItaliaansPortugeesRussianSpaans

OnWorks-favicon

map2slimp - Online in de cloud

Voer map2slimp uit in OnWorks gratis hostingprovider via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is de opdracht map2slimp die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


map2slim - brengt genassociaties in kaart met een 'slanke' ontologie

KORTE INHOUD


cd go
map2slim GO_slims/goslim_generic.obo ontology/gene_ontology.obo gene-associations/gene_association.fb

BESCHRIJVING


Gegeven een GO slim-bestand en een huidige ontologie (in een of meer bestanden), zal dit script in kaart brengen
een genassociatiebestand (met aantekeningen bij de volledige GO) bij de voorwaarden in de GO
dun.

Het script kan worden gebruikt om ofwel een nieuw genassociatiebestand te maken, dat de meeste
relevante GO slim-aanwinsten, of in de telmodus, in welk geval het verschillende genen zal geven
product telt voor elke slanke termijn

Het bestandsformaat van de associatie wordt hier beschreven:

<http://www.geneontology.org/GO.annotation.shtml#bestand>

ARGUMENTEN


-b emmer slank filet
Dit argument voegt toe: emmer termen naar de slanke ontologie; zie de documentatie hieronder voor:
een toelichting. Het nieuwe slanke ontologiebestand, inclusief bucket-termen, zal worden geschreven naar
emmer slank filet

-outmap slank in kaart brengen filet
Dit genereert een toewijzingsbestand voor elke term in de volledige ontologie die zowel de
meest relevante slanke term en alle slanke termen die voorouders zijn. Als je dit gebruikt
optie, lever GEEN gen-associaties bestand aan

shownamen
(Werkt alleen met -outmap)

Toon de namen van de term in het slim mapping-bestand

-c Dit dwingt map2slim om tellingen van het assoc-bestand te geven, in plaats van het toe te wijzen

-t Bij gebruik in combinatie met -c zal de uitvoer tab zodat de inspringing weerspiegelt
de boomhiërarchie in het slanke bestand

-o uit filet
Dit zal de toegewezen assocs (of counts) naar het gespecificeerde bestand schrijven, in plaats van naar
het scherm

DOWNLOAD


Dit script maakt deel uit van de go-perl pakket, verkrijgbaar bij CPAN

<http://search.cpan.org/~cmungall/go-perl/>

Dit script werkt niet zonder go-perl te installeren

MAPPING ALGORITME
GO is een DAG, geen boom. Dit betekent dat er vaak meer dan één pad uit een GO-term is
tot aan de root Gene_Ontology node; het pad mag meerdere termen kruisen in de slim
ontologie - wat betekent dat één annotatie kan verwijzen naar meerdere slanke termen!

(nota je moet dit online bekijken om de afbeelding hieronder te zien - als je dit niet op
de http://www.geneontology.org site, kunt u de volgende URL bekijken:
<http://geneontology.cvs.sourceforge.net/*kassa*/geneontologie/go-dev/go-perl/doc/map2slim.gif>
)

Een hypothetisch voorbeeld blauwe cirkels tonen termen in de GO slim, en gele cirkels tonen
termen in de volledige ontologie. De volledige ontologie omvat de slanke, dus de blauwe termen zijn
ook in de ontologie.

GA ID-KAARTEN NAAR SLIM ID ALLE SLANKE VOORouders
===== =============== ==================
5 2 + 3 2,3,1
6 3 alleen 3,1
7 4 alleen 4,3,1
8 3 alleen 3,1
9 4 alleen 4,3,1
10 2 + 3 2,3,1

De 2e kolom toont de meest relevante ID('s) in de slim the direct mapping. de 3e
kolom toont alle voorouders in de slim.

Let in het bijzonder op de toewijzing van ID 9, hoewel deze twee paden naar de root heeft:
de slim via 3 en 4, 3 wordt weggegooid omdat het wordt gesubsumeerd door 4.

Aan de andere kant, 10 kaarten voor zowel 2 als 3 omdat dit beide de eerste slanke ID in de . zijn
twee geldige paden naar de wortel, en geen van beide subsumeert de andere.

Het gebruikte algoritme is:

om een ​​term in de volledige ontologie in kaart te brengen: vind alle geldige paden naar het hoofdknooppunt in
de volledige ontologie

neem voor elk pad de eerste smalle term die je tegenkomt in het pad

gooi alle overbodige slanke termen in deze set weg, dwz slanke termen die zijn ondergebracht in andere slanke termen
in de set

EMMER ALGEMENE VOORWAARDEN
Als u het script uitvoert met de optie -b, worden bucket-termen toegevoegd. Voor elke term P in
de slim, als P minstens één kind C heeft, wordt er een bucketterm P' gecreëerd onder P. Dit is
een verzamelnaam voor het in kaart brengen van een term in de volledige ontologie die een afstammeling is van P, maar
GEEN afstammeling van enig kind van P in de slanke ontologie.

De slanke generic.0208 heeft bijvoorbeeld de volgende termen en structuur:

% DNA-binding; GO:0003677
% chromatine binding; GO:0003682
%transcriptiefactoractiviteit; GO:0003700, GO:0000130

Na het toevoegen van buckettermen ziet het er als volgt uit:

% DNA-binding; GO:0003677
% chromatine binding; GO:0003682
%transcriptiefactoractiviteit; GO:0003700 ; synoniem:GO:0000130
@bucket:Z-ANDERE-DNA-binding ; slim_temp_id:12

Termen uit de volledige ontologie die andere kinderen zijn van DNA-binding, zoals single-
gestrande DNA-binding en zijn afstammelingen zullen worden toegewezen aan de bucket-term.

De bucket-term heeft een slanke ID die van voorbijgaande aard is en er alleen is om de
in kaart brengen. Het mag niet extern worden gebruikt.

De bucketterm heeft het voorvoegsel Z-OTHER; de Z is een hack om ervoor te zorgen dat de term is
altijd als laatste vermeld in de alfabetische volgorde.

Het algoritme wordt enigszins aangepast als buckettermen worden gebruikt. De emmerterm heeft een
impliciete relatie met alle ANDERE broers en zussen die niet slank zijn.

Do I genoodzaakt bent emmer voorwaarden?

Tegenwoordig zijn de meeste slanke bestanden geheel of bijna 'compleet', dat wil zeggen dat er geen gaten zijn.
Dit betekent dat de optie -b geen merkbare andere resultaten oplevert. Bijvoorbeeld,
je ziet mogelijk een bucket-term OTHER-binding gemaakt, met niets eraan geannoteerd: omdat alles
de kinderen van binding in de GO zijn vertegenwoordigd in het slim-bestand.

De bucket-optie is eigenlijk alleen nodig voor enkele van de oudere gearchiveerde slanke bestanden,
die statisch zijn en op een tamelijk ad-hoc manier zijn gegenereerd; ze hebben de neiging om 'gaten' te accumuleren
na verloop van tijd (bijv. GO zal een nieuwe onderliggende binding toevoegen, maar het statische slanke bestand zal niet voldoen aan
datum, dus alle genproducten die aan deze nieuwe term zijn geannoteerd, worden toegewezen aan OTHER-binding in de
dun)

GRAPH FOUTEN
Merk op dat de slanke ontologiebestanden mogelijk verouderd zijn ten opzichte van de huidige
ontologie.

Momenteel signaleert map2slim geen mismatches tussen de slanke grafiek en de grafiek in
het volledige ontologiebestand; het neemt de volledige ontologie als de echte grafiek. echter, de
slanke ontologie wordt gebruikt om de resultaten op te maken als u selecteert -t -c als opties.

OUTPUT
In de normale modus wordt een gen-associatiebestand in standaardformaat geschreven. De kolom GO ID
(5) zal GO slim ID's bevatten. De toewijzing komt overeen met de 2e kolom in de tabel
bovenstaand. Merk op dat het uitvoerbestand meer regels kan bevatten dan het invoerbestand. Dit is
omdat sommige volledige GO-ID's meer dan één relevante slanke ID hebben.

COUNT MODE

map2slim kan worden uitgevoerd met de -c optie, die de tellingen van verschillende genen geeft
producten toegewezen aan elke slanke term. De kolommen zijn als volgt:

GO-term
De eerste kolom is de GO-ID gevolgd door de termnaam (de termnaam wordt gegeven als
het is te vinden in zowel de volledige GO als de slanke ontologieën - deze zullen meestal hetzelfde zijn
maar af en toe zal het slanke bestand achterlopen op wijzigingen in het GO-bestand)

Aantal genproducten waarvoor dit de meest relevante slanke term is
het aantal verschillende genproducten waarvoor dit het meest relevant/direct slim is
ID KAART. Met de meest directe bedoelen we dat ofwel de associatie rechtstreeks met deze term wordt gemaakt,
OF de associatie wordt gelegd met een kind van deze slanke termijn EN er is geen kind slim
term waarnaar de vereniging verwijst.

Voor de meeste slims is dit aantal gelijk aan het aantal associaties direct
toegewezen aan deze slanke term. Sommige oudere slanke bestanden zijn echter "vlekkerig" omdat ze
"gaten" toegeven. Als de slim bijvoorbeeld alle kinderen van het "biologische proces" heeft met
met uitzondering van "gedrag" dan zullen alle annotaties bij "gedrag" of zijn kinderen zijn
hier geteld

zie voorbeeld hieronder

Aantal genproducten waarvan wordt afgeleid dat ze geassocieerd zijn met slanke term
en het aantal verschillende genproducten die zijn geannoteerd aan een afstammeling hiervan
slim ID (of direct geannoteerd naar de slim ID).

verouderde vlag
GO ontologie

Om een ​​voorbeeld te nemen; als we -t en -c als volgt gebruiken:

map2slim -t -c GO_slims/goslim_generic.obo ontology/gene_ontology.obo gene-associations/gene_association.fb

Dan kan een deel van de resultaten er als volgt uitzien:

GO:0008150 biologisch_proces (biologisch_proces) 34 10025 biologisch_proces
GO:0007610 gedrag (gedrag) 632 632 biologisch_proces
GO:0000004 biologisch proces onbekend (biologisch proces onbekend) 832 832 biologisch proces
GO:0007154 celcommunicatie (celcommunicatie) 333 1701 biologisch_proces
GO:0008037 celherkenning (celherkenning) 19 19 biologische_process
19 producten werden toegewezen aan GO:0008037 of een van de onderliggende producten. (GO:0008037 is een bladknooppunt in de slim, dus de twee tellingen zijn identiek).

Aan de andere kant krijgt GO:0008150 maar 34 producten waarvoor dit het meest relevant is
termijn. Dit komt omdat de meeste annotaties zouden verwijzen naar een kind van GO:0008150 in de slanke,
zoals GO:0007610 (gedrag). Deze 34 genproducten worden ofwel rechtstreeks geannoteerd naar:
GO:0008150, of voor een kind van deze term die niet in het slank is. Dit kan wijzen op
'gaten' in het slank. Merk op dat het uitvoeren van map2slim met de -b optie deze gaten zal 'opvullen'
met kunstmatige vullertermen.

Gebruik map2slimp online met onworks.net-services


Ad


Ad

Nieuwste Linux & Windows online programma's