Il s'agit de la commande bp_genbank2gff3p qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos nombreux postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
bp_genbank2gff3.pl -- Genbank->gbrowse-friendly GFF3
SYNOPSIS
bp_genbank2gff3.pl [options] nom(s) de fichier
# traiter un répertoire contenant des fichiers plats GenBank
perl bp_genbank2gff3.pl --dir chemin_vers_les_fichiers --zip
# traiter un seul fichier, ignorer les exons et les introns explicites
perl bp_genbank2gff3.pl --filter exon --filter intron fichier.gbk.gz
# traiter une liste de fichiers
perl bp_genbank2gff3.pl *gbk.gz
# traiter les données de l'URL, avec le modèle Chado GFF (-noCDS), et les diriger vers le chargeur de base de données
boucle ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS -in stdin -out stdout \
| perl gmod_bulk_load_gff3.pl -dbname mychado -organism fromdata
Options :
--noinfer -r ne pas déduire les sous-caractéristiques des exons/ARNm
--conf -i chemin d'accès au fichier de configuration de curation qui contient les préférences de l'utilisateur
pour les entrées Genbank (doit être au format YAML)
(si --manual est passé sans --ini, l'utilisateur sera invité à
créer le fichier si une saisie manuelle est enregistrée)
--sofile -l chemin d'accès au fichier so.obo à utiliser pour le mappage des types de fonctionnalités
(--sofile live téléchargera la dernière révision en ligne)
--manual -m lorsque vous essayez de deviner le terme SO approprié, si plus de
une option correspond à la balise principale, le convertisseur
attendre la saisie de l'utilisateur pour choisir la bonne
(fonctionne uniquement avec --sofile)
--dir -d chemin vers une liste de fichiers plats genbank
--outdir -o emplacement pour écrire les fichiers GFF (peut être 'stdout' ou '-' pour pipe)
--zip -z compresse les fichiers de sortie GFF3 avec gzip
--summary -s imprime un résumé des fonctionnalités de chaque contig
--filter -x type(s) de fonctionnalités genbank à ignorer
--split -y divise la sortie pour séparer les fichiers GFF et fasta pour
chaque enregistrement Genbank
--nolump -n fichier séparé pour chaque séquence de référence
(par défaut, tous les enregistrements sont regroupés en un seul
fichier de sortie pour chaque fichier d'entrée)
--ethresh -e seuil d'erreur pour le déflatteur
définissez cette valeur élevée (> 2) pour ignorer toutes les erreurs de déflatteur
--[no]CDS -c Conserver les exons CDS ou les convertir en exon alternatif de gène-ARN-protéine
modèle. --CDS est la valeur par défaut. Utilisez --CDS pour conserver le modèle de gène GFF par défaut.
utilisez --noCDS pour convertir en grpe.
--format -f Format d'entrée (types SeqIO) : GenBank, Swiss ou Uniprot, EMBL fonctionne
(GenBank est la valeur par défaut)
--GFF_VERSION 3 est la version par défaut, 2 et 2.5 et d'autres versions de Bio::Tools::GFF sont disponibles
--silence ne parle pas de ce qui est en cours de traitement
--typesource Type de séquence SO pour la source (par exemple chromosome ; région ; contig)
--help -h affiche ce message
DESCRIPTION
Ce script utilise Bio::SeqFeature::Tools::Unflattener et Bio::Tools::GFF pour convertir
Fichiers plats GenBank vers GFF3 avec hiérarchies de confinement des gènes mappées pour un affichage optimal dans
parcourir.
Les fichiers d'entrée sont supposés être des fichiers plats GenBank compressés pour les contigs refseq. Les fichiers
peut contenir plusieurs enregistrements GenBank. Il peut s'agir d'un seul fichier ou d'un répertoire entier.
traitée. Par défaut, la séquence d'ADN est intégrée dans le GFF, mais elle peut être enregistrée dans
fichier fasta séparé avec l'option --split(-y).
Si un fichier d'entrée contient plusieurs enregistrements, le comportement par défaut est de vider tous les fichiers GFF et
dans un fichier du même nom (avec l'extension .gff). L'option « nolump »
Créez un fichier distinct pour chaque enregistrement Genbank. L'option « séparer » créera
fichiers GFF et Fasta séparés pour chaque enregistrement Genbank.
Remarques
'diviser' et 'nolump' produire de nombreuses fichiers
Dans les cas où les fichiers d'entrée contiennent de nombreux enregistrements GenBank (par exemple, le chromosome
fichiers pour la construction du génome de la souris), un très grand nombre de fichiers de sortie seront produits si
Les options « split » ou « nolump » sont sélectionnées. Si vous avez des listes de fichiers > 6000 XNUMX, utilisez
l'option --long_list dans bp_bulk_load_gff.pl ou bp_fast_load_gff.pl pour charger le gff et/
ou des fichiers fasta.
Conçu pour RefSeq
Ce script est conçu pour les entrées de séquences génomiques RefSeq. Il peut fonctionner pour des applications tierces.
Annotations, mais cela n'a pas été testé. Voir ci-dessous : Uniprot/Swissprot fonctionne, EMBL
et éventuellement EMBL/Ensembl si cela ne vous dérange pas de subir certaines erreurs de déflatteur de modèle génétique (dgg).
GRPE Gène Modèle
Don Gilbert a travaillé là-dessus avec les besoins pour produire GFF3 adapté au chargement sur GMOD Chado
bases de données. La plupart des modifications, à mon avis, sont adaptées à un usage général. Un des principaux problèmes
l'addition spécifique est la
--[pas]drapeau de protéine cds2
Mon GFF préféré est de définir ce qui précède sur ON par défaut (désactiver avec --nocds2prot) Pour
en utilisation générale, il devrait probablement être désactivé, activé avec --cds2prot.
Ceci écrit GFF avec un modèle génétique alternatif, mais utile, au lieu du modèle de consensus
pour GFF3
[ gène > ARNm> (exon,CDS,UTR) ]
Cette alternative est
gène > ARNm > polypeptide > exon
signifie que la seule caractéristique des bases d'ADN est l'exon. Les autres ne précisent que la localisation.
Les plages de valeurs d'un génome. L'exon est bien sûr un enfant de l'ARNm et d'une protéine/peptide.
La caractéristique protéine/polypeptide est importante, car elle possède toutes les annotations de la
Fonctionnalité CDS de GenBank, identifiant de protéine, traduction, termes GO, références Dbx vers d'autres protéines.
Les UTR, les introns et les exons CDS sont tous déduits des bases d'exons primaires à l'intérieur/à l'extérieur
plages de caractéristiques supérieures appropriées. Les autres caractéristiques spécifiques du modèle génétique restent inchangées.
Plusieurs autres améliorations et corrections de bugs, mineures mais utiles, sont incluses
* Les pipes d'E/S fonctionnent désormais :
boucle ftp://ncbigenomes/... | bp_genbank2gff3 --in stdin --out stdout | gff2chado ...
* Les champs d'enregistrement principaux de GenBank sont ajoutés à la fonction source, par exemple l'organisme, la date,
et le type de source, généralement chromosome pour les génomes, est utilisé.
* Gestion du modèle génétique pour l'ARNnc, des pseudogènes sont ajoutés.
* L'en-tête GFF est plus propre et plus informatif.
--L'indicateur GFF_VERSION permet de choisir la version v2 ainsi que la version v3 par défaut
* L'inclusion GFF ##FASTA est améliorée, et
La séquence de traduction CDS est déplacée vers les enregistrements FASTA.
* Le mappage des attributs FT -> GFF est amélioré.
* --format choix des formats d'entrée SeqIO (par défaut de GenBank).
Uniprot/Swissprot et EMBL travaillent et produisent des GFF utiles.
* SeqFeature::Tools::TypeMapper a quelques ajouts FT -> SOFA
et une utilisation plus flexible.
TOUT
Emplacements ces ajouts voulu?
* filtrer les enregistrements d'entrée par taxon (par exemple, conserver uniquement l'organisme = xxx ou le niveau de taxon = classeYYY)
* gérer Entrezgene, d'autres structures SeqIO non séquentielles (devraient vraiment changer
ces analyseurs pour produire des balises d’annotation cohérentes).
Articles connexes corrections de bugs/tests
Ces éléments du courrier Bioperl ont été testés (données d'échantillon générant des erreurs) et trouvés
corrigé:
De : Ed Green eva.mpg.de>
Objet : genbank2gff3.pl sur le nouveau RefSeq humain
Date : 2006/03/13 21:22:26 GMT
-- erreurs non spécifiées (les données d'échantillon fonctionnent maintenant).
De : Eric Just northwestern.edu>
Objet : genbank2gff3.pl
Date : 2007/01/26 17:08:49 GMT
-- bug corrigé dans genbank2gff3 pour la gestion de plusieurs enregistrements
Cette erreur concerne un gène /trans_splice difficile à gérer et unflattner/genbank2
ne pas
De : Chad Matsalla dieselwurks.com>
Objet : genbank2gff3.PLS et le déflateur - Ordre incohérent ?
Date : 2005/07/15 19:51:48 GMT
Utilisez bp_genbank2gff3p en ligne à l'aide des services onworks.net