GoGPT Best VPN GoSearch

favorit OnWorks

murasaki-mpi - Online di Awan

Jalankan murasaki-mpi di penyedia hosting gratis OnWorks melalui Ubuntu Online, Fedora Online, emulator online Windows, atau emulator online MAC OS

Ini adalah perintah murasaki-mpi yang dapat dijalankan di penyedia hosting gratis OnWorks menggunakan salah satu dari beberapa workstation online gratis kami seperti Ubuntu Online, Fedora Online, emulator online Windows atau emulator online MAC OS

PROGRAM:

NAMA


murasaki - menghitung jangkar antara beberapa urutan

RINGKASAN


murasaki [OPSI] -p[pola] seq1.fa seq2.gbk [seq3.raw ...] #menghitung jangkar antara seq1.fa dan seq2.gbk menggunakan [pola]
mpirun murasaki [OPSI] -p[pattern] seq1.fa seq2.gbk [seq3.raw ...] #menghitung jangkar antara seq1.fa dan seq2.gbk menggunakan [pola] secara paralel melalui MPI

DESKRIPSI


Murasaki menghasilkan jangkar berdasarkan semua urutan yang disediakan berdasarkan pengguna yang disediakan
belt hold dan tabel hash. Pada dasarnya setiap dasar dari setiap urutan ditutupi oleh pola,
membentuk a benih yang digunakan untuk menghasilkan hash. Lokasi benih disimpan di
hash tabel. Setelah semua benih telah di-hash dan disimpan, Murasaki memindai tabel hash,
menghasilkan jangkar untuk semua benih yang cocok. Jangkar mengacu pada interval yang ditetapkan melintasi a
subset dari urutan input. Ini disimpan di nama.anchors file, dan dijelaskan dalam
"FORMAT FILE". Secara default, jangkar diperpanjang secara maksimal hingga minimum berpasangan
skor keselarasan ungapped turun di bawah ambang batas dengan cara yang sama dengan parameter X-drop
dalam pencarian seperti BLAST dan BLAST.

POLA
Murasaki menggunakan berjarak benih pola untuk dalam mempertimbangkan benih. A berjarak benih belt hold is
biasanya dinyatakan sebagai string 1s dan 0s yang dimulai dan diakhiri dengan 1. 1s
menunjukkan bahwa pangkalan ini dianggap sebagai bagian dari benih, sedangkan pangkalan pada posisi 0 adalah
bukan. Misalnya dengan pola "1011" urutan "ACGT" akan cocok dengan urutan "AGGT"
dan "ATGT" tetapi bukan "ACTT". Jumlah 1 dalam pola ini dikenal sebagai "berat" dari
pola, dan jumlah kombinasi 1 dan 0 adalah "panjang" pola. Murasaki
memungkinkan penggunaan pola arbitrer apa pun yang dinyatakan sebagai string 1 dan 0, dan juga
menafsirkan pola bentuk "x:y" berarti "pola bobot acak x dan panjang y."

Pilihan pola jelas berdampak pada sensitivitas dan spesifisitas, tetapi apakah
satu pola "lebih baik" dari yang lain tergantung pada aplikasi dan urutan input
Dalam pertimbangan. Menghitung "pola benih dengan jarak sensitif maksimal" adalah
masalah komputasi yang sulit dan ada sejumlah makalah penelitian yang menjelaskan
berbagai metode untuk pendekatan ("BACAAN TERKAIT"). Namun secara umum, "lebih berat"
pola benih berjarak kurang sensitif, tetapi lebih spesifik, daripada benih yang lebih ringan.
Secara anekdot kami menemukan bahwa benih dengan bobot sekitar 60% hingga 75% (dengan panjang sekitar
24 untuk bakteri, dan 36 hingga 48 untuk mamalia) baik untuk sebagian besar aplikasi. Sangat
spesies serupa (misalnya manusia dan simpanse) mendapat manfaat dari biji yang lebih panjang dan lebih berat.

HASH FUNGSI
Fungsi hash (serta parameter hash) dihasilkan secara otomatis berdasarkan sistem
lingkungan dan urutan input. Pada dasarnya ada dua jenis fungsi hash
tersedia di Murasaki: hash adaptif dan kriptorafik. Hash adaptif adalah XOR
kombinasi dari berbagai pergeseran bitwise dari benih yang dirancang dengan menganalisis berjarak benih
belt hold untuk memaksimalkan entropi hash yang dihasilkan. Hash kriptografi tersedia
melalui perpustakaan CryptoPP dan gunakan seluruh pola benih spasi untuk menghasilkan hash menggunakan
salah satu hash kriptografi umum seperti MD5 atau SHA-1. Fungsi hash adaptif adalah
hampir selalu lebih cepat dan lebih efisien daripada MD5 dan SHA-1, tetapi kriptografi
fungsi yang tersedia untuk referensi dan mungkin berguna sebagai alternatif yang tidak mungkin
acara Anda sedang berhadapan dengan lingkungan di mana hasher adaptif tidak cocok (untuk
contoh urutan yang hanya terdiri dari A dan T (meninggalkan 1 dari setiap 2 bit yang disatukan)).

MEMORY SKALA
Murasaki bisa memakan banyak memori. Menyimpan lokasi setiap benih di tabel hash adalah
bagian operasi yang paling mahal, membutuhkan kira-kira "ceil(log_2(N))" bit per
benih di mana "N" adalah total panjang urutan. Lokasi, secara default, disimpan dalam a
format bitpacked untuk mendekati minimum teoritis. Elemen kedua yang paling mahal adalah
struktur tabel hash, di mana setiap ember membawa overhead kecil dan tidak digunakan secara sederhana
ruang yang terbuang. Lebih banyak ember tabel hash (yaitu tabel hash yang lebih panjang) mengurangi yang diharapkan
jumlah tabrakan, yang mengarah ke waktu eksekusi yang lebih cepat. Oleh karena itu Murasaki mencoba menggunakan
ember sebanyak mungkin dengan memeriksa memori sistem yang tersedia dan menggunakan sebanyak
bisa sambil tetap menyimpan semua lokasi benih. Jika penskalaan otomatis ini adalah
tidak efektif, mengatur ukuran tabel hash secara langsung melalui opsi --hashbits|-b dapat memaksa
ukuran tabel hash tertentu. Jika memori satu komputer tidak cukup untuk menyimpan:
tabel hash yang diinginkan, PARALLELIZATION dapat digunakan untuk mendistribusikan tabel hash ke seluruh
beberapa komputer.

PARALELISASI
Murasaki dirancang untuk berjalan secara paralel menggunakan MPI. Konsultasikan dokumentasi untuk
variasi spesifik dari implementasi MPI Anda, namun secara umum metode eksekusi
seperti:

mpirun [opsi MPI] murasaki [opsi murasaki] -p[pola] [seq1 ...]

Murasaki secara paralel membagi jumlah prosesor yang tersedia (NP) menjadi dua kelompok:
node hasher dan node penyimpanan. Node penyimpanan membagi tabel hash di antara masing-masing
sendiri, masing-masing bertanggung jawab atas bagian tabel yang berbeda. Node haser membagi
urutan input di antara mereka sendiri, masing-masing memiliki bagian input yang terpisah
urutan, dan melewati lokasi benih ke node penyimpanan yang sesuai untuk penyimpanan. Kapan
semua node hasher selesai hashing, node penyimpanan memindai bagian hash mereka
tabel dan berikan set benih yang cocok ke simpul hasher tempat mereka dirakit menjadi
jangkar dan diperpanjang. Akhirnya semua node hasher menggabungkan set jangkar independen mereka
menjadi satu set terakhir dalam iterasi "ceil(log_2(H))" (di mana "H" adalah jumlah hasher
node), dengan setiap node hasher nomor 2h melewati jangkarnya ke nomor hasher 2h-1 di masing-masing
pengulangan.

Karena hampir tidak ada langkah paralelisasi yang memerlukan komunikasi antara semua node,
dan setiap benih dan setiap jangkar dapat diproses secara paralel, sisik Murasaki sangat baik
paralel, berjalan kira-kira dua kali lebih cepat ketika node tersedia dua kali lebih banyak.
Selanjutnya, tabel hash secara otomatis dikembangkan untuk memanfaatkan gabungan
memori dari beberapa mesin.

PILIHAN


Sebagian besar opsi dapat ditentukan dalam bentuk panjangnya (misalnya "--directory out" atau
"--directory=out") atau bentuk pendek (misalnya "-dout"). Opsi ditandai dengan mengharapkan string,
bilangan bulat, float, dan nilai boolean ("yes/on/true/1" untuk true,
"tidak/mati/salah/0" untuk salah). Kebanyakan boolean dapat menghilangkan nilai, mengubah nilai dari
apapun itu sebaliknya.

Murasaki memiliki banyak pilihan. Di sini kami telah memisahkan mereka ke dalam kategori untuk membantu
membedakan ruang lingkup berbagai opsi, namun dalam situasi tertentu opsi tertentu
pilihan mungkin memiliki konsekuensi yang dapat diprediksi, dan tentu saja pada akhirnya jika output yang ditentukan
is besar, runtime yang dibutuhkan tentu saja panjang. Adalah suatu kesalahan untuk berpikir bahwa
segala sesuatu di luar "opsi penyetelan" di bagian Performa tidak ada hubungannya
kinerja.

Jangkar parameter terkait Pilihan
Pilihan ini membentuk apa yang dianggap sebagai "jangkar".

--pola|-p
menentukan pola benih (misalnya 11101001010011011). menggunakan format
C<[ : ]> secara otomatis menghasilkan pola bobot acak
dan panjang

--repeatmask|-r
Lewati ulangi data bertopeng (yaitu: huruf kecil atgc). Ketahuilah bahwa beberapa file urutan adalah
didistribusikan murni dalam huruf kecil.

--seedfilter|-f
Lewati benih yang muncul lebih dari N kali. Sangat lambat. Lihat --hashfilter untuk
pendekatan yang lebih cepat.

--hashfilter|-m
Seperti --seedfilter tetapi berfungsi pada kunci hash alih-alih seed. Dapat menyebabkan beberapa jaminan
merusak benih yang unik, tetapi lebih cepat.

--skipfwd|-F
Jangan hash/cocok dengan untaian ke depan.

--skiprev|-R
Jangan hash/cocok dengan untai komplemen terbalik.

--skip1to1|-1
Lewati kecocokan di sepanjang garis 1:1 (baik untuk membandingkan dengan diri sendiri).

--hashonly|-Q
Hanya Hash. Tidak ada keluaran jangkar, hanya statistik.

--hashskip|-S
Hash setiap n basis. Standarnya adalah 1 (yaitu hashing semua posisi). Tidak menyediakan apapun
argumen menambah jumlah lompatan sebesar 1.

--bergabung|-j
Bergabunglah dengan jangkar dalam n basis satu sama lain (default: 0). Menentukan D negatif menyiratkan
-D*polaPanjang.

--bitscore|-B
matikan perhitungan bitscore untuk semua jangkar (default aktif).

--seedterms|-T
matikan retensi istilah benih (default ke nonaktif). Ini diperlukan untuk komputasi
skor TF-IDF).

--sectime|-e
Selalu tampilkan waktu dalam hitungan detik sebagai lawan dari gaya "1d 3h 45m 5s" yang dapat dibaca manusia
kali.

--mergefilter|-Y
Saring kecocokan yang akan menyebabkan lebih dari D banyak jangkar yang akan dihasilkan
dari 1 benih (default -Y100). Gunakan -Y0 untuk menonaktifkan.

--scorefilter
Tetapkan skor ungapped minimum untuk benih.

--retak|-/
Izinkan jangkar untuk melewati urutan D (default 0).

--pulau|-%
Sama seperti --rifts=SD (di mana S adalah jumlah seq input).

--fuzzyextend|-z
Aktifkan (default) atau nonaktifkan ekstensi fuzzy (yaitu perataan tidak terbuka) dari jangkar.

--fuzzyextendlosslimit|-Z
Setel batas waktu untuk menghentikan perluasan hit fuzzy (yaitu parameter BLAST X).

--gappedanchors
Gunakan jangkar gapped (true) atau ungapped (false (default)).

--scorebyminimumpair
Lakukan penilaian jangkar dengan pasangan minimum bila sesuai (default). Alternatifnya adalah
rata-rata aritmatika (jarang berguna, tetapi secara teoritis lebih cepat). =item --rift|-/

Izinkan jangkar untuk melewati urutan D (default 0).

--pulau|-%
Sama seperti --rifts=SD (di mana S adalah jumlah seq input).

--fuzzyextend|-z
Aktifkan (default) atau nonaktifkan ekstensi fuzzy (yaitu perataan tidak terbuka) dari jangkar.

--fuzzyextendlosslimit|-Z
Setel batas waktu untuk menghentikan perluasan hit fuzzy (yaitu parameter BLAST X).

--gappedanchors
Gunakan jangkar gapped (true) atau ungapped (false (default)).

--scorebyminimumpair
Lakukan penilaian jangkar dengan pasangan minimum bila sesuai (default). Alternatifnya adalah
rata-rata aritmatika (jarang berguna, tetapi secara teoritis lebih cepat).

Keluaran Pilihan
Opsi ini terutama memengaruhi data apa yang dihasilkan di mana.

--direktori|-d
direktori keluaran (default: keluaran)

--nama|-n
nama penyelarasan (default: tes)

--repeatmap|-i
Mengalihkan penyimpanan peta berulang saat --mergefilter digunakan (defaultnya ya).

--histogram|-H
Tingkat perhitungan histogram: (-H saja menyiratkan -H1)

0 - tidak ada histogram (default)
1 - data histogram ukuran ember/jumlah ember dasar
2 - skor berbasis ember untuk anchors.detils
3 - data jumlah perbucket
4 - data hitungan perbucket + perpattern

Nilai apa pun di atas 2 adalah murni eksplorasi dan dapat menghasilkan file keluaran yang sangat besar.

--tfidf|-k
Lakukan penilaian tfidf akurat dari dalam murasaki (membutuhkan memori ekstra di jangkar
waktu generasi). Standarnya adalah tidak.

Performa/penyetelan Pilihan
Opsi ini terutama memengaruhi kinerja, dan tidak (secara umum) memengaruhi output.

--quickhash|-q
tentukan fungsi hashing:

0 - adaptif dengan S-box (default ketika ada banyak tabel hash yang tersisa)
1 - jangan mengemas bit untuk membuat hash (gunakan kata pertama saja)
2 - secara naif menggunakan pola senilai hashbits pertama
3 - secara adaptif menemukan hash yang baik (default)
**hash CryptoPP eksperimental**
4 - MD5
5 - SHA1
6 - Pusaran Air
7 - KRC-32
8 - Adler-32

Catatan: 3 dan 0 adalah satu-satunya fungsi hash yang "direkomendasikan", dan satu-satunya
dipilih secara otomatis. Yang lain disediakan hanya untuk referensi. 1, 7, dan 8
bahkan tidak diharapkan untuk memanfaatkan seluruh ruang hash.

--hashbits|-b
gunakan hash bit D (untuk n dari 1 hingga WORDSIZE. default 26)

--hashtype|-t
pilih struktur data tabel hash untuk digunakan:

OpenHash - buka pengepakan hashbit sub-kata (default ketika ada banyak hash
meja untuk cadangan)
EcoHash - pengepakan sub-kata yang dirantai dari hashbits (default)
ArrayHash - malloc/realloc (cepat tetapi rawan fragmentasi)
MSetHash - memori selangit, hampir tidak ada gunanya.
--menyelidiki
0 - linier, 1 - kuadrat (default). Hanya berlaku untuk --hashtype=OpenHash.

--hitfilter|-h
Jumlah minimum hit yang akan dikeluarkan sebagai jangkar (default 1). Di PatternHunter ini
adalah 2.

--rseed|-s
Benih angka acak untuk algoritma non-deterministik (yaitu: fungsi hash adaptif
generasi). Jika Anda melakukan perbandingan kinerja, itu mungkin penting
bahwa Anda menggunakan benih yang sama untuk setiap menjalankan pengaturan yang sama. Default diperoleh
dari waktu() (yaitu: detik sejak 1970).

--memori|-M [ | ]
Tetapkan jumlah target total memori (baik dalam gb atau sebagai % total memori).

--reverseotf|-o
Hasilkan pelengkap terbalik dengan cepat (default ke aktif). Mematikan ini menghitung sebelumnya
semua untai komplemen terbalik dan menyimpannya dalam memori, yang jarang memberikan
peningkatan kinerja yang terukur.

--binaryseq
Aktifkan (default) atau nonaktifkan urutan biner baca/tulis

Adaptif hash fungsi Terkait:

Opsi kinerja terkait dengan pembuatan fungsi hash adaptif.

--hasherFairEntropy
Gunakan estimasi entropi yang lebih seimbang (default: ya).

--hasherCorelationAdjust
Sesuaikan perkiraan entropi untuk sumber terdekat dengan asumsi beberapa korelasi (default: ya).

--hasherTargetGACycles
Pemutusan siklus algoritma genetika generasi fungsi hash adaptif.

--hasherEntropyAgro
Seberapa agresif untuk mengejar fungsi hash entropi maksimum (membutuhkan real.
standarnya adalah 1).

lampu Spesifik:
--hasher|-A [ | ]
Tentukan jumlah proses yang akan digunakan sebagai hasher (hanya berlaku untuk MPI. Jika a
angka antara 0 dan 1 itu mengacu pada rasio np).

--localhash|-K
Lakukan hashing secara lokal pada setiap node penyimpanan daripada mengirimkannya melalui jaringan
(membantu untuk jaringan yang lambat).

--mpidistro|-L
Mengalihkan penggunaan MPI untuk mendistribusikan data urutan (jika urutan tersedia di
disk lokal pada setiap node kemudian mematikan ini berpotensi mempercepat awal
pemuatan urutan).

--waittoanchor|-w
Tunda perhitungan jangkar aktual sampai semua set lokasi telah diterima (sebagai
menentang mencoba bekerja antara menerima paket benih).

--buffer|-u
Jumlah maksimum buffer yang belum selesai untuk diizinkan saat pesan lewat (0 berarti
tak terbatas). Default diatur berdasarkan jumlah node yang berpartisipasi. MPI bisa crash
atau tampil sangat buruk jika nilai ini terlalu tinggi.

--nobuffers|-U
Sama seperti --buffers=1.

--bigfirst|-aku
Tetapkan hasher ke node memori besar terlebih dahulu.

--hostbalance|-l
Jika ya (default): sebarkan hasher secara merata di antara semua node.
Jika tidak: abaikan nama host saat menetapkan tugas.
--memorybalance|-a
Jika ya (default): seimbangkan penyimpanan hash antar node berdasarkan jumlah yang tersedia
ram
Jika tidak: distribusikan penyimpanan secara merata. Ini lebih mungkin untuk mencapai waktu berjalan yang optimal, tetapi
mungkin tidak menggunakan memori seefisien mungkin.
--disstmerge|-<
jika ya (default): selama langkah penggabungan, node penyimpanan mengirim benih ke semua yang tersedia
penggiling daging.
jika tidak: kirim semua benih ke satu simpul saja.
--distcollect|->
jika ya (default): kumpulkan data jangkar dari semua hasher.
jika tidak: kirim semua benih ke simpul perakitan akhir saja.
--mpiredirectoutput
jika ya (default): setiap peringkat mengalihkan stdout/stderr ke file terpisah
(murasaki-mpiout-N).
jika tidak: lakukan apa yang terjadi secara alami (yaitu: dikelola oleh mpirun (untuk OpenMPI lihat
--output-filename dan --tag-output in pirun(1))).
--keepstdoe
Jangan hapus file murasaki-mpiout jika berhasil.

--sysvipc|-V
Gunakan System V IPC untuk menegosiasikan wilayah memori bersama (menghemat memori saat satu host berjalan
beberapa node). Standarnya benar.

Universal pilihan:
--verbose|-v
Meningkatkan verbositas.

--versi|-V
Mencetak informasi versi dan berhenti.

--bantu|-?
Mencetak pesan bantuan dan keluar.

FILE FORMAT


Murasaki memiliki beragam file keluaran, format yang sebagian besar dimaksudkan untuk menjadi
intuitif. Semua file keluaran diawali dengan nilai parameter --name. yang utama
format file output dijelaskan di sini. File berbasis garis dan dibatasi tab kecuali
ditentukan lain.

.seqs
.seqs menunjukkan urutan apa yang digunakan sebagai input, 1 per baris. File ini digunakan oleh
berbagai program dalam hubungannya dengan file .anchors, jadi umumnya penting bahwa
isinya mencerminkan file urutan yang benar. Memindahkan hasil jangkar antar komputer
mungkin mengakibatkan perubahan jalur, mengharuskan pengguna untuk memperbarui file .seqs. sebagai
alternatif, selalu menggunakan jalur relatif dapat mengatasi masalah ini.

.jangkar arsip
File-file ini adalah 1 jangkar per baris, dengan 3-tupel per urutan. Setiap kelipatan mewakili
start dan stop koordinat dan untai interval berlabuh pada setiap urutan. NS
urutan urutan cocok dengan urutan dalam file .seqs. Koordinatnya terstruktur
sedemikian rupa sehingga 1 mengacu pada basis pertama dalam urutan, 2 ke yang kedua, dll. Negatif
nilai mengacu pada urutan komplemen terbalik di mana -1 adalah terakhir dasar kebalikannya
urutan komplemen (yaitu: komplemen basa pertama dalam urutan maju). "untai"
elemen adalah '+' atau '-' yang hanya cocok dengan tanda koordinat (ini berlebihan
informasi, tetapi disimpan untuk membuat parsing atau penyaringan lebih sederhana).

Misalnya:

1 18 + -1 -18 -

Baris ini menggambarkan jangkar di mana 18 basis pertama dari urutan pertama cocok dengan
18 basa pertama komplemen terbalik dari urutan kedua.

.anchors.detail
Ini adalah format file kuno, tetapi digunakan oleh GMV untuk menghitung statistik seperti TF-IDF
skor, dan telah disimpan di sekitar untuk alasan itu. File .anchors.details memiliki hal yang sama
format dan informasi sebagai file .anchors, namun setelah anchor touples ada dua lagi
istilah: skor, dan koma (,) daftar pasangan istilah dan jumlah yang dipisahkan (tertulis
"istilah: hitungan"). Data skor dan hitungan mungkin bervariasi tergantung pada "--histogram"
pilihan pilihan.

.anchors.bitscore
Istilah "bitscore" di sini adalah keliru, tetapi dipertahankan karena alasan historis. Pada kenyataannya,
file ini berisi jumlah rata-rata pangkalan yang cocok dan panjang setiap jangkar
(sesuai baris demi baris ke file .anchors).

.stats.tfidf
Berisi skor TF-IDF jangkar (sesuai baris demi baris ke file .anchors).

.histogram
Berisi histogram sederhana dari penggunaan tabel hash. Bidang pertama adalah ukuran ember,
dan yang kedua adalah frekuensi. Misalnya file .histogram seperti ini:

1 24
2 1

Akan menunjukkan bahwa ada 24 ember hash yang hanya menyimpan 1 lokasi (yaitu 24 unik
benih), dan 1 ember hash menyimpan 2 lokasi (yaitu 1 benih yang cocok dengan 2 lokasi (atau 2
benih yang tidak cocok yang mengakibatkan tabrakan hash)).

.pilihan
Menyimpan catatan opsi yang digunakan saat menjalankan Murasaki.

.pengulangan
File .repeats menyimpan catatan "pengulangan" seperti yang didefinisikan oleh opsi --mergefilter
(yaitu benih yang akan menginduksi lebih banyak jangkar daripada yang diizinkan). Dalam file ini, masing-masing
record ulang dipisahkan oleh baris kosong. Rekaman ulangi terlihat seperti ini:

R : G.GCCTTT.T.ACT.CACAA..AT
0: 2145540494 -425039256 -113794380 1998323403
1: 2480929222 -1874514626 2543723555 -2550045172

Baris pertama (selalu diawali "R:") menunjukkan benih yang berulang itu sendiri (di mana . adalah
dasar ditutupi oleh pola). Baris berikutnya menunjukkan di mana benih-benih ini muncul di
urutan input (dalam urutan pertama (0) dan kedua (1)). Perhatikan bahwa jika tidak ada
hits dalam urutan tertentu, itu tidak termasuk baris kosong untuk urutan itu. Untuk
contoh:

R : G.GCCTTT.T.ACT.CACAA..AT
0: 2145540494 -425039256 -113794380 1998323403
2: 2480929222 -1874514626 2543723555 -2550045172

juga merupakan file .repeats yang valid.

Gunakan murasaki-mpi online menggunakan layanan onworks.net


Server & Workstation Gratis

Unduh aplikasi Windows & Linux

Perintah Linux

Ad




×
iklan
❤️Berbelanja, pesan, atau beli di sini — tanpa biaya, membantu menjaga layanan tetap gratis.