Angielskifrancuskihiszpański

Ad


Ulubiona usługa OnWorks

bp_genbank2gff3p — online w chmurze

Uruchom bp_genbank2gff3p w darmowym dostawcy hostingu OnWorks przez Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

To jest polecenie bp_genbank2gff3p, które można uruchomić w darmowym dostawcy usług hostingowych OnWorks przy użyciu jednej z wielu naszych bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online MAC OS

PROGRAM:

IMIĘ


bp_genbank2gff3.pl -- Genbank->gbrowse-friendly GFF3

STRESZCZENIE


bp_genbank2gff3.pl [opcje] nazwy plików

# przetworzyć katalog zawierający pliki typu flatfile GenBanku
perl bp_genbank2gff3.pl --katalog ścieżka_do_plików --zip

# przetwarzaj pojedynczy plik, ignoruj ​​jawne eksony i introny
perl bp_genbank2gff3.pl --filter ekson --filter intron plik.gbk.gz

# przetworzyć listę plików
perl bp_genbank2gff3.pl *gbk.gz

# przetwarza dane z adresu URL za pomocą modelu Chado GFF (-noCDS) i potokuje do programu ładującego bazę danych
curl ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiae/CHR_X/NC_001142.gbk \
| perl bp_genbank2gff3.pl -noCDS -in stdin -out stdout \
| perl gmod_bulk_load_gff3.pl -nazwa bazy danych mychado -organizm z danych

Opcje:
--noinfer -r nie wnioskuje o podfunkcjach egzonu/mRNA
--conf -i ścieżka do pliku konfiguracyjnego kuracji, który zawiera preferencje użytkownika
dla wpisów Genbank (musi być w formacie YAML)
(jeśli --manual zostanie przekazane bez --ini, użytkownik zostanie poproszony o
utwórz plik, jeśli zapisano jakiekolwiek ręczne dane wejściowe)
--sofile -l ścieżka do pliku so.obo, który ma być używany do mapowania typów obiektów
(--sofile live pobierze najnowszą wersję online)
--manual -m podczas próby odgadnięcia właściwego terminu SO, jeśli więcej niż
jedna opcja pasuje do tagu podstawowego, konwerter to zrobi
poczekaj na wprowadzenie danych przez użytkownika, aby wybrać właściwy
(działa tylko z --sofile)
--dir -d ścieżka do listy plików płaskich genbanku
--outdir -o lokalizacja do zapisu plików GFF (może być „stdout” lub „-” dla potoku)
--zip -z kompresuje pliki wyjściowe GFF3 za pomocą gzip
--summary -s wypisuje podsumowanie funkcji w każdym kontigu
--filter -x typy funkcji genbank do zignorowania
--split -y dzieli wyjście na oddzielne pliki GFF i fasta
każdy rekord genbanku
--nolump -n oddzielny plik dla każdej sekwencji referencyjnej
(domyślnie łączy wszystkie rekordy w jeden
plik wyjściowy dla każdego pliku wejściowego)
--ethresh -e próg błędu dla unflattenera
ustaw tę wysoką wartość (>2), aby zignorować wszystkie błędy spłaszczania
--[no]CDS -c Zachowaj eksony CDS lub przekształć je w alternatywny egzon-gen-RNA-białko
Model. --CDS jest wartością domyślną. Użyj --CDS, aby zachować domyślny model genu GFF,
użyj --noCDS, aby przekonwertować na grpe.
--format -f Format wejściowy (typy SeqIO): GenBank, Swiss lub Uniprot, praca EMBL
(GenBank jest domyślny)
--GFF_VERSION 3 to domyślna wersja 2 i 2.5 oraz inne dostępne wersje Bio::Tools::GFF
--quiet nie mów o tym, co jest przetwarzane
--typesource SO typ sekwencji dla źródła (np. chromosom; region; kontig)
--help -h wyświetla ten komunikat

OPIS


Ten skrypt używa Bio::SeqFeature::Tools::Unflattener i Bio::Tools::GFF do konwersji
Płaskie pliki GenBank do GFF3 z hierarchiami zawierania genów mapowanymi w celu optymalnego wyświetlania w
przeglądaj.

Przyjmuje się, że pliki wejściowe są plikami płaskimi GenBank spakowanymi gzipem dla kontigów refseq. Pliki
może zawierać wiele rekordów GenBank. Może to być pojedynczy plik lub cały katalog
obrobiony. Domyślnie sekwencja DNA jest osadzona w GFF, ale można ją zapisać
osobny plik fasta z opcją --split(-y).

Jeśli plik wejściowy zawiera wiele rekordów, domyślnym zachowaniem jest zrzut wszystkich plików GFF i
sekwencji do pliku o tej samej nazwie (z dołączonym rozszerzeniem .gff). Użycie opcji „nolump” spowoduje
utwórz osobny plik dla każdego rekordu genbanku. Użycie opcji „podziel” spowoduje utworzenie
osobne pliki GFF i Fasta dla każdego rekordu genbanku.

Uwagi
'podział' i „bezbryłkowy” produkować wiele pliki

W przypadkach, gdy pliki wejściowe zawierają wiele rekordów GenBank (na przykład chromosom
pliki do kompilacji genomu myszy), zostanie wyprodukowana bardzo duża liczba plików wyjściowych, jeśli
wybrane są opcje „split” lub „nolump”. Jeśli masz listy plików> 6000, użyj
opcję --long_list w bp_bulk_load_gff.pl lub bp_fast_load_gff.pl, aby załadować gff i/
lub pliki fasta.

Zaprojektowany dla Nr ref

Ten skrypt jest przeznaczony do wpisów sekwencji genomowych RefSeq. Może działać dla strony trzeciej
adnotacje, ale nie zostało to przetestowane. Ale patrz poniżej, Uniprot/Swissprot działa, EMBL
i prawdopodobnie EMBL/Ensembl, jeśli nie masz nic przeciwko niektórym błędom rozpłaszczania modelu genów (dgg).

GRPE Gen Model

Don Gilbert przepracował to z potrzebą wyprodukowania GFF3 nadającego się do załadowania do GMOD Chado
bazy danych. Uważam, że większość zmian nadaje się do ogólnego użytku. Jedno główne chado-
Specyficznym dodatkiem jest tzw
--[nie]flaga cds2protein

Moim ulubionym GFF jest ustawienie powyższego jako domyślnego WŁĄCZONEGO (wyłącz za pomocą --nocds2prot) Dla
ogólnego użytku prawdopodobnie powinien być WYŁĄCZONY, włączony za pomocą --cds2prot.

To zapisuje GFF z alternatywnym, ale użytecznym modelem Gene, zamiast modelu konsensusu
dla GFF3

[ gen > mRNA> (egzon,CDS,UTR) ]

Ten zastępca jest

gen > mRNA > polipeptyd > ekson

oznacza, że ​​jedyną cechą z zasadami DNA jest ekson. Pozostałe określają tylko lokalizację
zakresy w genomie. Egzon jest oczywiście dzieckiem mRNA i białka/peptydu.

Cecha białka/polipeptydu jest ważna, mając wszystkie adnotacje
Cecha GenBank CDS, identyfikator białka, translacja, terminy GO, Dbxrefs do innych białek.

UTR, introny, eksony CDS są wywnioskowane z podstawowych zasad eksonu wewnątrz/na zewnątrz
odpowiednie wyższe zakresy funkcji. Inne specjalne cechy modelu genów pozostają takie same.

Uwzględniono kilka innych ulepszeń i poprawek błędów, drobnych, ale przydatnych

* Potoki IO działają teraz:
curl ftp://ncbigenomy/... | bp_genbank2gff3 --in stdin --out stdout | gff2chado...

* Główne pola rekordów GenBank są dodawane do funkcji źródła, np. organizm, data,
i używany jest typ źródłowy, zwykle chromosom dla genomów.

* Obsługa modelu genów dla ncRNA, dodano pseudogeny.

* Nagłówek GFF jest czystszy i zawiera więcej informacji.
--GFF_VERSION flaga umożliwia wybór wersji 2 oraz domyślnej wersji 3

* Ulepszono włączenie GFF ##FASTA i
Sekwencja translacji CDS jest przenoszona do rekordów FASTA.

* Poprawiono mapowanie atrybutów FT -> GFF.

* --format wybór formatów wejściowych SeqIO (domyślnie GenBank).
Uniprot/Swissprot i EMBL działają i wytwarzają użyteczne GFF.

* SeqFeature::Tools::TypeMapper ma kilka dodatków FT -> SOFA
i bardziej elastyczne użytkowanie.

WSZYSTKO


Czy te wzbogacenie pożądany?
* filtruj rekordy wejściowe według taksonów (np. zachowaj tylko organizm=xxx lub poziom taksonów = classYYY
* obsługuj Entrezgene, inne niesekwencyjne struktury SeqIO (naprawdę powinny się zmienić
te parsery do tworzenia spójnych znaczników adnotacji).

Związane z poprawki błędów/testy
Te przesyłki z poczty Bioperl zostały przetestowane (przykładowe błędy generujące dane) i znalezione
poprawione:

Od: Ed Green eva.mpg.de>
Temat: genbank2gff3.pl o nowym człowieku RefSeq
Data: 2006-03-13 21:22:26 GMT
-- nieokreślone błędy (przykładowe dane już działają).

Od: Eric Just północno-zachodni.edu>
Temat: genbank2gff3.pl
Data: 2007-01-26 17:08:49 GMT
-- naprawiony błąd w genbank2gff3 dotyczący obsługi wielu rekordów

Ten błąd dotyczy trudnego w obsłudze genu /trans_splice i unflattner/genbank2
nie

Od: Chad Matsalla dieselwurks.com>
Temat: genbank2gff3.PLS i unflatenner - Niespójna kolejność?
Data: 2005-07-15 19:51:48 GMT

Korzystaj z bp_genbank2gff3p online, korzystając z usług onworks.net


Darmowe serwery i stacje robocze

Pobierz aplikacje Windows i Linux

Komendy systemu Linux

Ad