Aceasta este comanda bp_genbank2gff3p care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS
PROGRAM:
NUME
bp_genbank2gff3.pl -- Genbank->gbrowse-friendly GFF3
REZUMAT
bp_genbank2gff3.pl [opțiuni] nume de fișier(e)
# procesează un director care conține fișiere plate GenBank
perl bp_genbank2gff3.pl --dir calea_la_fișiere --zip
# procesează un singur fișier, ignoră exonii și intronii expliciți
perl bp_genbank2gff3.pl --filter exon --filter intron file.gbk.gz
# procesează o listă de fișiere
perl bp_genbank2gff3.pl *gbk.gz
# procesează datele de la URL, cu modelul Chado GFF (-noCDS) și încărcătorul de bază de date
răsuci ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS -in stdin -out stdout \
| perl gmod_bulk_load_gff3.pl -dbname mychado -organism fromdata
Opțiuni:
--noinfer -r nu deduce subfuncții exon/ARNm
--conf -i calea către fișierul de configurare a curatării care conține preferințele utilizatorului
pentru intrările Genbank (trebuie să fie în format YAML)
(dacă --manual este transmis fără --ini, utilizatorului i se va cere să
creați fișierul dacă este salvată orice intrare manuală)
--sofile -l calea către fișierul so.obo de utilizat pentru maparea tipului de caracteristică
(--sofile live va descărca cea mai recentă versiune online)
--manual -m când încercați să ghiciți termenul SO adecvat, dacă mai mult decât
o opțiune se potrivește cu eticheta principală, convertizorul
așteptați intrarea utilizatorului pentru a-l alege pe cel corect
(funcționează doar cu --sofile)
--dir -d calea către o listă de fișiere plate genbank
--outdir -o locație pentru a scrie fișiere GFF (poate fi „stdout” sau „-” pentru pipe)
--zip -z comprima fișierele de ieșire GFF3 cu gzip
--summary -s afișează un rezumat al caracteristicilor din fiecare contig
--filter -x genbank tip(uri) de caracteristică de ignorat
--split -y split output pentru a separa fișierele GFF și fasta pentru
fiecare înregistrare genbank
--nolump -n fișier separat pentru fiecare secvență de referință
(Implicit este să grupați toate înregistrările într-una singură
fișier de ieșire pentru fiecare fișier de intrare)
--ethresh -e pragul de eroare pentru unplattener
setați acest nivel ridicat (>2) pentru a ignora toate erorile de neplatit
--[no]CDS -c Păstrați exonii CDS sau convertiți în genă-ARN-proteină-exon alternativ
model. --CDS este implicit. Utilizați --CDS pentru a păstra modelul implicit al genei GFF,
utilizați --noCDS pentru a converti în grpe.
--format -f Format de intrare (tipuri SeqIO): GenBank, Swiss sau Uniprot, lucru EMBL
(GenBank este implicit)
--GFF_VERSION 3 este implicit, 2 și 2.5 și alte versiuni Bio::Tools::GFF disponibile
--liniște, nu vorbi despre ceea ce este procesat
--typesource SO secvență tip pentru sursă (de exemplu, cromozom; regiune; contig)
--help -h afișează acest mesaj
DESCRIERE
Acest script folosește Bio::SeqFeature::Tools::Unplattener și Bio::Tools::GFF pentru a converti
GenBank fișiere plate în GFF3 cu ierarhii de reținere a genelor mapate pentru afișare optimă
gbrowse.
Se presupune că fișierele de intrare sunt fișiere plate GenBank cu gzip pentru refseq contigs. Fișierele
poate conține mai multe înregistrări GenBank. Poate fi un singur fișier sau un întreg director
prelucrate. În mod implicit, secvența ADN este încorporată în GFF, dar poate fi salvată în
Separați fișierul fasta cu opțiunea --split(-y).
Dacă un fișier de intrare conține mai multe înregistrări, comportamentul implicit este de a descărca toate GFF și
secvență într-un fișier cu același nume (cu .gff atașat). Folosind opțiunea „nolump” va
creați un fișier separat pentru fiecare înregistrare genbank. Folosind opțiunea „split” se va crea
fișiere separate GFF și Fasta pentru fiecare înregistrare genbank.
notițe
'Despică' și „nolump” produce multe fișiere
În cazurile în care fișierele de intrare conțin multe înregistrări GenBank (de exemplu, cromozomul
fișiere pentru construirea genomului mouse-ului), va fi produs un număr foarte mare de fișiere de ieșire dacă
sunt selectate opțiunile „split” sau „nolump”. Dacă aveți liste de fișiere > 6000, utilizați
opțiunea --long_list din bp_bulk_load_gff.pl sau bp_fast_load_gff.pl pentru a încărca gff și/
sau fișiere fasta.
Proiectat pentru RefSeq
Acest script este conceput pentru intrările secvenței genomice RefSeq. Poate funcționa pentru terți
adnotări, dar acest lucru nu a fost testat. Dar vezi mai jos, Uniprot/Swissprot funcționează, EMBL
și, eventual, EMBL/Ensembl dacă nu vă deranjează unele erori de unflattener model genetic (dgg).
GRPE genă Modele Usi
Don Gilbert a rezolvat acest lucru cu nevoia de a produce GFF3 potrivit pentru încărcare în GMOD Chado
baze de date. Majoritatea modificărilor cred că sunt potrivite pentru uz general. Un chado principal-
adaosul specific este
--[no]cds2protein steag
GFF-ul meu preferat este să setez cele de mai sus ca ON în mod implicit (dezactivați cu --nocds2prot) Pentru
utilizarea generală probabil ar trebui să fie OFF, activat cu --cds2prot.
Aceasta scrie GFF cu un model Gene alternativ, dar util, în locul modelului de consens
pentru GFF3
[ genă > ARNm > (exon, CDS, UTR) ]
Această alternativă este
genă > ARNm > polipeptidă > exon
înseamnă că singura caracteristică cu baze de ADN este exonul. Celelalte precizează doar locația
variază pe un genom. Exonul este, desigur, un copil al ARNm și al proteinei/peptidei.
Caracteristica proteină/polipeptidă este una importantă, având toate adnotările
Caracteristica GenBank CDS, ID proteine, traducere, termeni GO, Dbxrefs la alte proteine.
UTR-urile, intronii, exonii CDS sunt toți deduși din bazele exonilor primari din interior/exterior
intervale de caracteristici superioare adecvate. Alte caracteristici speciale ale modelului de gene rămân aceleași.
Sunt incluse câteva alte îmbunătățiri și remedieri de erori, minore, dar utile
* Conductele IO funcționează acum:
răsuci ftp://ncbigenomes/... | bp_genbank2gff3 --in stdin --out stdout | gff2chado...
* Câmpurile de înregistrare principale GenBank sunt adăugate la caracteristica sursă, de exemplu, organism, dată,
iar tipul sursă, de obicei cromozomul pentru genomi, este utilizat.
* Manipularea modelului genelor pentru ARNnc, se adaugă pseudogenele.
* Antetul GFF este mai curat, mai informativ.
--GFF_VERSION steag permite alegerea v2, precum și v3 implicită
* Includerea GFF ##FASTA este îmbunătățită și
Secvența de traducere CDS este mutată în înregistrările FASTA.
* Maparea atributelor FT -> GFF este îmbunătățită.
* --format alegerea formatelor de intrare SeqIO (implicit GenBank).
Uniprot/Swissprot și EMBL funcționează și produc GFF utile.
* SeqFeature::Tools::TypeMapper are câteva FT -> adăugiri SOFA
și utilizare mai flexibilă.
TOATE
Sunt acestea adăugări dorit?
* Filtrați înregistrările de intrare în funcție de taxon (de exemplu, păstrați doar organismul=xxx sau nivelul taxonului = clasa YYY
* gestionați Entrezgene, alte structuri SeqIO non-secvențe (chiar ar trebui să se schimbe
acele analizoare pentru a produce etichete de adnotare consistente).
Legate de remedieri/teste de erori
Aceste articole din e-mailul Bioperl au fost testate (erori de generare a datelor mostre) și găsite
corectat:
De la: Ed Green eva.mpg.de>
Subiect: genbank2gff3.pl despre noua RefSeq umană
Data: 2006-03-13 21:22:26 GMT
-- erori nespecificate (eșantionul de date funcționează acum).
De la: Eric Just nord-vest.edu>
Subiect: genbank2gff3.pl
Data: 2007-01-26 17:08:49 GMT
-- bug remediat în genbank2gff3 pentru gestionarea mai multor înregistrări
Această eroare este pentru o genă /trans_splice care este greu de gestionat și unflattner/genbank2
nu
De la: Chad Matsalla dieselwurks.com>
Subiect: genbank2gff3.PLS și unflatenner - Ordin inconsecvent?
Data: 2005-07-15 19:51:48 GMT
Utilizați bp_genbank2gff3p online folosind serviciile onworks.net
