Ini ialah arahan blasr yang boleh dijalankan dalam penyedia pengehosan percuma OnWorks menggunakan salah satu daripada berbilang stesen kerja dalam talian percuma kami seperti Ubuntu Online, Fedora Online, emulator dalam talian Windows atau emulator dalam talian MAC OS.
JADUAL:
NAMA
blasr - Petakan Jujukan SMRT kepada genom rujukan.
SINOPSIS
blasr membaca.bam genom.fasta -bam -keluar keluar.bam
blasr membaca.fasta genom.fasta
blasr membaca.fasta genom.fasta -sa genome.fasta.sa
blasr reads.bax.h5 genom.fasta [-sa genome.fasta.sa]
blasr reads.bax.h5 genom.fasta -sa genome.fasta.sa -maxScore -100 -minMatch 15 ...
blasr reads.bax.h5 genom.fasta -sa genome.fasta.sa -nproc 24 -keluar penjajaran.keluar ...
DESCRIPTION
blasr ialah program pemetaan baca yang memetakan bacaan kepada kedudukan dalam genom dengan mengelompokkan
padanan tepat pendek antara bacaan dan genom, dan kelompok pemarkahan menggunakan penjajaran.
Padanan dijana dengan mencari semua akhiran bacaan terhadap genom menggunakan a
tatasusunan akhiran. Kaedah rantaian global digunakan untuk menjaringkan kumpulan perlawanan.
Satu-satunya input yang diperlukan untuk blasr ialah fail bacaan dan genom rujukan. Ia adalah
amat berguna untuk membaca maklumat penapisan, dan masa jalan pemetaan mungkin berkurangan
secara ketara apabila indeks tatasusunan akhiran yang diprakira pada jujukan rujukan adalah
dinyatakan.
Walaupun bacaan mungkin dimasukkan dalam format FASTA, input yang disyorkan ialah fail PacBio BAM
kerana ini mengandungi maklumat nilai kualiti yang digunakan dalam penjajaran dan menghasilkan
pengesanan varian berkualiti tinggi. Walaupun penjajaran boleh dikeluarkan dalam pelbagai format,
format output yang disyorkan ialah PacBio BAM. Sokongan untuk fail bax.h5 dan plx.h5 akan menjadi
TERDAPAT. Sokongan untuk jadual rantau untuk fail h5 akan menjadi TERDAPAT.
Apabila indeks tatasusunan akhiran genom tidak ditentukan, tatasusunan akhiran dibina sebelum ini
menghasilkan penjajaran. Ini mungkin sangat perlahan apabila genomnya besar (cth. Manusia).
Adalah lebih baik untuk mengira tatasusunan akhiran genom menggunakan atur cara sawriter(1), dan
kemudian tentukan tatasusunan akhiran pada baris arahan menggunakan -sa genome.fa.sa.
Parameter pilihan dibahagikan secara kasar kepada tiga kategori: kawalan ke atas penambat,
penjajaran pemarkahan, dan output.
Parameter berlabuh lalai adalah optimum untuk genom kecil dan sampel dengan sehingga 5%
perbezaan daripada genom rujukan. Parameter utama yang mengawal kelajuan dan sensitiviti
adalah -minMatch parameter. Untuk penjajaran genom manusia, nilai 11 atau lebih tinggi ialah
disyorkan. Beberapa kaedah boleh digunakan untuk mempercepatkan penjajaran, dengan mengorbankan
mungkin mengurangkan sensitiviti.
Kawasan yang terlalu berulang mungkin diabaikan semasa pemetaan dengan mengehadkan bilangan
meletakkan peta yang dibaca dengan -maxAnchorsPerPosition pilihan. Nilai antara 500 dan
1000 berkesan dalam genom manusia.
Untuk genom kecil seperti genom bakteria atau BAC, parameter lalai adalah mencukupi
untuk sensitiviti maksimum dan kelajuan yang baik.
PILIHAN
Input Fail
Dibaca
membaca.bam
Fail PacBio BAM bacaan. Ini adalah input pilihan kepada blasr
kerana nilai kualiti yang kaya (sisipan, pemadaman dan penggantian
nilai kualiti) maklumat dikekalkan. Kualiti tambahan
maklumat meningkatkan pengesanan varian dan kelajuan pemetaan.
membaca.fasta
Fail bacaan berbilang fasta, walaupun mana-mana fail fasta adalah input yang sah
reads.bax.h5|reads.plx.h5
yang tua TERDAPAT format output bacaan SMRT.
input.fofn
Fail nama fail
-sa suffixArrayFile
Gunakan tatasusunan akhiran 'sa' untuk mengesan padanan antara bacaan dan
rujukan. Tatasusunan akhiran telah disediakan oleh sawriter(1) program.
-ctab tab
Jadual kiraan tupel digunakan untuk menganggar kepentingan padanan. Ini adalah oleh
atur cara 'printTupleCountTable'. Walaupun ia cepat menjana dengan cepat,
jika terdapat banyak seruan blasr, ia berguna untuk prakiraan ctab.
-regionTable meja (TERDAPAT)
Baca dalam jadual kawasan baca dalam format HDF untuk menutup bahagian bacaan.
Ini mungkin satu jadual jika terdapat hanya satu fail input, atau satu fofn. Bila
jadual rantau ditentukan, mana-mana jadual rantau di dalam reads.plx.h5 atau
fail reads.bax.h5 diabaikan.
(TAMAT) Pilihan khususnya mengubahsuai dibaca.
Terdapat maklumat sampingan tentang subrentetan bacaan yang disimpan dalam a
'jadual wilayah' untuk setiap fail yang dibaca. Kerana HDF digunakan, jadual rantau mungkin
sebahagian daripada fail .bax.h5 atau .plx.h5, atau fail berasingan. Bacaan bersambung
subrentetan daripada templat ialah subbacaan, dan sebarang bacaan mungkin mengandungi berbilang
subbacaan. Sempadan subbacaan boleh disimpulkan daripada jadual rantau
sama ada secara langsung atau mengikut takrifan sempadan penyesuai. Biasanya jadual rantau
juga mengandungi maklumat untuk lokasi kawasan berkualiti tinggi dan rendah di
membaca. Bacaan yang dihasilkan oleh bacaan palsu daripada ZMW kosong mempunyai permulaan yang berkualiti tinggi
koordinat sama dengan akhir berkualiti tinggi, menjadikan bacaan tidak boleh digunakan.
-useccs
Jajarkan jujukan konsensus bulat (ccs), kemudian laporkan penjajaran
ccs subbacaan ke tetingkap yang ccs dipetakan. Hanya penjajaran daripada
subbacaan dilaporkan.
-useccsall
Sama seperti -useccs, kecuali semua subbacaan diselaraskan, bukan hanya
subbacaan yang digunakan untuk memanggil ccs. Ini termasuk bacaan yang hanya meliputi bahagian
templat.
-useccsdenovo
Jajarkan konsensus bulat dan laporkan hanya penjajaran cc
urutan.
-tiadaSplitSubreads (salah)
Jangan belah subbacaan pada penyesuai. Ini biasanya hanya berguna apabila
genom dalam versi templat yang diketahui, dan mengandungi templat-
turutan adapter-reverse_template.
-abaikanRegions (salah)
Abaikan sebarang maklumat dalam jadual rantau.
-abaikanHQRegions (salah)
Abaikan mana-mana kawasan hq dalam jadual rantau.
Penjajaran Untuk Laporan
-bestn n (10)
Laporkan bahagian atas n penjajaran.
-hitPolicy (semua)
Tentukan dasar untuk merawat berbilang hits daripada [semua, terbaik, rawak,
rawak terbaik, paling kiri]
semua laporkan semua penjajaran.
semua terbaik
laporkan semua penjajaran skor tertinggi yang sama.
rawak laporkan penjajaran rawak.
paling rawak
laporkan penjajaran rawak daripada berbilang pemarkahan yang sama teratas
penjajaran.
paling kiri
laporkan penjajaran yang mempunyai skor penjajaran terbaik dan mempunyai
koordinat pemetaan terkecil dalam mana-mana rujukan.
-placeRepeatsRandomly (salah)
DILARANG! Jika benar, bersamaan dengan -hitPolicy paling rawak.
-Benih rawak (0)
Benih untuk penjana nombor rawak. Secara lalai (0), gunakan masa semasa sebagai benih.
-noSortRefinedAlignments (salah)
Setelah penjajaran calon dijana dan dijaringkan melalui dinamik jarang
pengaturcaraan, mereka dikira semula menggunakan penjajaran tempatan yang menyumbang
profil ralat yang berbeza. Pertukaran berdasarkan penjajaran setempat mungkin berubah
perintah hits dikembalikan.
-allowAdjacentIndels
Apabila dinyatakan, sisipan atau pemadaman bersebelahan dibenarkan. Jika tidak,
sisipan dan pemadaman bersebelahan digabungkan menjadi satu operasi. menggunakan
nilai kualiti untuk membimbing penjajaran berpasangan mungkin menentukan bahawa semakin tinggi
penjajaran kebarangkalian mengandungi sisipan atau pemadaman bersebelahan. semasa
alatan seperti GATK tidak membenarkan ini dan oleh itu ia tidak dilaporkan oleh
lalai.
Output Format and Fail
-keluar keluar (terminal)
Tulis output ke keluar.
-sam Tulis output dalam format SAM.
-m t Jika tidak mencetak SAM, ubah suai output penjajaran.
Bila t ialah:
0 Cetak letupan seperti output dengan |'s menghubungkan nukleotida sepadan.
1 Cetak ringkasan sahaja: skor dan pos.
2 Cetak dalam format Compare.xml.
3 Cetak dalam format kesat (TERDAPAT).
4 Cetak versi jadual yang lebih panjang bagi penjajaran.
5 Cetak dalam format yang boleh dihuraikan mesin yang dibaca oleh
compareSequences.py.
-kepala
Cetak pengepala sebagai baris pertama fail output yang menerangkan kandungan
setiap lajur.
-judul Jadual tab (NULL)
Bina jadual tajuk jujukan rujukan. Urutan rujukan ialah
dikira mengikut baris, 0,1,... Indeks rujukan dicetak dalam penjajaran
hasil daripada nama rujukan penuh. Ini menjadikan output ringkas,
terutamanya apabila setiap tajuk kata kerja wujud dalam nama rujukan.
-tidak selaras fail
Bacaan keluaran yang tidak sejajar dengan fail
-keratan [tiada|keras|subbacaan|lembut] (tiada)
Gunakan keratan tidak/keras/subbaca/lembut, HANYA untuk output SAM/BAM.
-cetakSAMQV (salah)
Cetak nilai kualiti ke output SAM.
-cigarUseSeqMatch (salah)
Rentetan CIGAR dalam output SAM/BAM menggunakan '=' dan 'X' untuk mewakili padanan jujukan
dan tidak sepadan bukannya 'M'.
Pilihan khususnya berlabuh penjajaran wilayah.
Ini akan mempunyai kesan yang paling besar pada kelajuan dan kepekaan.
-minMatch m (12)
Panjang benih minimum. MinMatch yang lebih tinggi akan mempercepatkan penjajaran, tetapi berkurangan
kepekaan.
-maxMatch l (inf)
Berhenti memetakan bacaan kepada genom apabila panjang lcp mencapai l. Ini adalah
berguna apabila pertanyaan adalah sebahagian daripada rujukan, contohnya apabila
membina penjajaran berpasangan untuk pemasangan de novo.
-maxLCPLength l (inf)
Sama seperti -maxMatch.
-maxAnchorsPerPosition m (10000)
Jangan tambahkan sauh dari kedudukan jika ia sepadan dengan lebih daripada m lokasi di
sasaran.
-advanceExactMatches E (0)
Satu lagi helah untuk mempercepatkan penjajaran dengan padanan - Kurangkan sauh.
Daripada mencari sauh antara bacaan dan genom pada setiap
kedudukan dalam bacaan, apabila sauh ditemui pada kedudukan i dalam bacaan
panjang L, kedudukan seterusnya dalam bacaan untuk mencari sauh adalah pada i+LE. guna
ini apabila menjajarkan contigs yang telah dipasang.
-nCalon n (10)
Teruskan sehingga n calon untuk penjajaran terbaik. Nilai n kehendak yang besar
pemetaan perlahan kerana langkah pengaturcaraan dinamik yang lebih perlahan digunakan
lebih banyak kelompok sauh yang boleh menjadi langkah mengehadkan kadar apabila bacaan adalah
sangat panjang.
-selaras (salah)
Petakan semua subbacaan zmw (lubang) ke tempat subbacaan lulus penuh terpanjang
zmw sejajar dengan. Ini memerlukan penggunaan jadual rantau dan kawasan hq.
Pilihan ini hanya berfungsi apabila bacaan dalam format h5 asas atau nadi.
-concordantTemplat (mediansubread)
Pilih subbacaan pas penuh zmw sebagai templat untuk pemetaan konkordan.
longestsubread - gunakan subbacaan penuh lulus terpanjang mediansubread - gunakan
median panjang penuh lulus subbaca tipikalsubbaca - gunakan penuh kedua terpanjang
lulus subbacaan jika panjang subbaca lulus penuh terpanjang adalah outlier
-fastMaxInterval (salah)
Carian pantas selang peningkatan maksimum sebagai calon penjajaran. Pencarian
tidaklah selengkap lalai, tetapi lebih pantas.
-agresifIntervalCut (salah)
Tapis secara setuju calon penjajaran yang tidak menjanjikan, jika ada
sekurang-kurangnya seorang calon yang menjanjikan. Jika pilihan ini dihidupkan, blasr is
berkemungkinan mengabaikan penjajaran pendek elemen ALU.
-cepatSDP (salah)
Gunakan algoritma heuristik pantas untuk mempercepatkan pengaturcaraan dinamik yang jarang.
Pilihan khususnya Pemurnian Hit
-sdpTupleSize K (11)
Gunakan padanan panjang K untuk mempercepatkan penjajaran pengaturcaraan dinamik. ini
mengawal ketepatan memberikan jurang dalam penjajaran berpasangan sekali pemetaan
telah ditemui, bukannya memetakan sensitiviti itu sendiri.
-skorMatriks Perincian matriks rentetan
Tentukan matriks skor alternatif untuk menskor bacaan cepat. Matriks ialah
dalam format
ACGTN
abcde
C fghij
G klmno
T pqrst
N uvwxy
Nilai a...y harus dimasukkan sebagai rentetan dipisahkan ruang yang disebut: "abc
... y". Markah yang lebih rendah adalah lebih baik, jadi padanan hendaklah kurang daripada ketidakpadanan
cth a,g,m,s = -5 (padanan), ketidakpadanan = 6.
-afineBuka nilai (10)
Tetapkan penalti untuk membuka penjajaran affine.
-afineExtend a (0)
Tukar penalti jurang affine (sambungan). Nilai yang lebih rendah membolehkan lebih banyak jurang.
Pilihan khususnya bertindih/dinamik pengaturcaraan penjajaran and berpasangan bertindih khususnya de baru
perhimpunan.
-kualiti penggunaan (salah)
Gunakan nilai kualiti penggantian/penyisipan/pemadaman/gabungan untuk menjaringkan jurang dan
penalti tidak sepadan dalam penjajaran berpasangan. Kerana sisipan dan
kadar pemadaman adalah lebih tinggi daripada penggantian, ini akan membuat banyak
penjajaran lebih mengutamakan sisipan/pemadaman berbanding penggantian.n Konsensus naif
kaedah panggilan kemudiannya akan sering terlepas polimorfisme penggantian. Pilihan ini
hendaklah digunakan apabila memanggil konsensus menggunakan kaedah Quiver. Tambahan pula,
apabila tidak menggunakan nilai kualiti untuk menjajarkan skor, akan ada yang lebih rendah
ketepatan konsensus di kawasan homolymer.
-afineAlign (salah)
Perhalusi penjajaran menggunakan penjajaran berpandu affine.
Pilihan khususnya penapisan dibaca and penjajaran
-minReadLength l (50)
Langkau bacaan yang mempunyai panjang penuh kurang daripada l. Subbacaan mungkin lebih pendek.
-minSubreadLength l (0)
Jangan selaraskan subbacaan yang panjangnya kurang daripada l.
-minRawSubreadScore m (0)
Jangan selaraskan subbacaan yang skor kualitinya dalam jadual wilayah kurang daripada m
(skor kualiti hendaklah dalam julat [0, 1000]).
-maxScore m (-200)
Skor maksimum kepada output (tinggi adalah buruk, negatif baik).
-minAlnLength
(0) Laporkan penjajaran hanya jika panjangnya lebih besar daripada minAlnLength.
-minPctSimilarity (0) Laporkan penjajaran hanya jika peratusan persamaannya ialah
lebih besar daripada minPctSimilarity.
-minPctAccuracy
(0) Laporkan penjajaran hanya jika peratusan ketepatannya lebih besar daripada
minKetepatan.
Pilihan khususnya selari penjajaran
-nproc N (1)
Selaraskan menggunakan N proses. Semua struktur data yang besar seperti tatasusunan akhiran
dan jadual kiraan tupel dikongsi.
-mula S (0)
Indeks bacaan pertama untuk mula menjajarkan. Ini berguna apabila berbilang
kejadian berjalan pada data yang sama, contohnya apabila pada rak berbilang
cluster.
-langkah S (1)
Selaraskan satu bacaan setiap S dibaca.
Pilihan khususnya subsampel dibaca.
-subsampel (0)
Perkadaran bacaan kepada subsampel secara rawak (dinyatakan sebagai perpuluhan) dan
selaraskan.
-Nombor lubang SENARAI
Apabila dinyatakan, hanya selaraskan bacaan yang nombor lubang ZMWnya berada SENARAI. SENARAI
ialah rentetan julat yang dipisahkan koma, seperti '1,2,3,10-13'. Pilihan ini
hanya berfungsi apabila bacaan dalam format bam, bax.h5 atau plx.h5.
-h Cetak maklumat bantuan.
CITATION
Untuk memetik BLASR, sila gunakan: Chaisson MJ, dan Tesler G., Memetakan molekul tunggal
penjujukan bacaan menggunakan Penjajaran Tempatan Asas dengan Penapisan Berturut-turut (BLASR): Teori
dan Aplikasi, BMC Bioinformatics 2012, 13:238.
Gunakan blasr dalam talian menggunakan perkhidmatan onworks.net