Ini adalah kumpulan perintah yang dapat dijalankan di penyedia hosting gratis OnWorks menggunakan salah satu dari beberapa workstation online gratis kami seperti Ubuntu Online, Fedora Online, emulator online Windows atau emulator online MAC OS
PROGRAM:
NAMA
swarm — temukan kelompok amplikon nukleotida yang hampir identik
RINGKASAN
kawanan [ Pilihan ] nama file
DESKRIPSI
Studi molekuler lingkungan atau klinis menghasilkan volume besar amplikon (misalnya, 16S
atau urutan 18S SSU-rRNA) yang perlu dikelompokkan ke dalam taksonomi operasional molekuler
unit (OTU). Metode pengelompokan umum didasarkan pada serakah, bergantung pada input-order
algoritma, dengan pilihan sewenang-wenang ukuran cluster global dan cluster centroids. Ke
mengatasi masalah itu, kami mengembangkan kawanan, metode cepat dan kuat yang mengelompokkan secara rekursif
amplikon dengan d atau kurang perbedaan. kawanan menghasilkan cluster yang alami dan stabil terpusat
pada puncak kelimpahan lokal, bebas dari seleksi centroid yang menginduksi ketergantungan urutan input.
Pengelompokan yang tepat tidak praktis pada kumpulan data besar saat menggunakan pendekatan all-vs-all yang naif
(lebih tepatnya kombinasi 2 tanpa pengulangan), karena ini menyiratkan jumlah yang tidak realistis
perbandingan berpasangan. kawanan didasarkan pada jumlah maksimum perbedaan d antara dua
amplikon, dan hanya berfokus pada hubungan lokal yang sangat dekat. Untuk d = 1 (nilai default),
swarm menggunakan algoritme kompleksitas linier yang melakukan pencocokan string tepat dengan
membandingkan nilai hash. Untuk d = 2 atau lebih besar, swarm menggunakan algoritma kuadrat
kompleksitas yang melakukan perbandingan string berpasangan. Sebuah efisien k-pemfilteran berbasis mer
dan penggunaan hasil perbandingan yang cerdik yang diperoleh selama proses pengelompokan memungkinkan untuk
menghindari sebagian besar perbandingan amplikon yang diperlukan dalam pendekatan naif. Untuk mempercepat
perbandingan amplikon yang tersisa, kawanan mengimplementasikan Needleman-Wunsch yang sangat cepat
algoritma memanfaatkan Streaming SIMD Extensions (SSE2) dari CPU x86-64 modern. Jika
Instruksi SSE2 tidak tersedia, kawanan keluar dengan pesan kesalahan.
kawanan membaca input bernama nama file, file fasta amplikon nukleotida. amplikon
pengenal didefinisikan sebagai string yang terdiri antara simbol ">" dan spasi pertama
atau akhir baris, mana yang lebih dulu. Sebagai kawanan keluaran daftar amplikon
pengidentifikasi, pengidentifikasi amplikon harus unik untuk menghindari ambiguitas; gerombolan keluar dengan
pesan kesalahan jika pengidentifikasi tidak unik. Pengidentifikasi amplikon harus diakhiri dengan "_"
diikuti oleh bilangan bulat positif yang mewakili nomor salinan amplikon (atau kelimpahan
anotasi; pengguna userarch/vsearch dapat menggunakan opsi -z untuk mengubah perilaku itu).
Anotasi kelimpahan memainkan peran penting dalam proses pengelompokan, dan swarm keluar dengan
pesan kesalahan jika informasi tersebut tidak tersedia. Urutan amplikon didefinisikan sebagai
string simbol [acgt] atau [acgu] (tidak peka huruf besar/kecil), dimulai setelah akhir
garis pengenal dan berakhir sebelum garis pengenal berikutnya atau akhir file; kawanan keluar
dengan pesan kesalahan jika ada simbol lain.
Umum Pilihan
-b, --batas positif bilangan bulat
saat menggunakan opsi --fastidious (-f), tentukan massa minimum dari OTU besar
sebagai nomor yang diberikan dengan opsi ini. Nilai default adalah 3, menunjukkan bahwa setiap
OTU dengan massa 3 atau lebih dianggap "besar". Secara default, OTU adalah "kecil" jika
ia memiliki massa 2 atau kurang, artinya ia terdiri dari salah satu amplikon
kelimpahan 2, atau dua amplikon kelimpahan 1. Nilai positif apa pun yang lebih besar dari 1
dapat ditentukan. Menggunakan nilai batas yang lebih tinggi akan mempercepat lintasan kedua, tapi
juga mengurangi resolusi taksonomi dari kawanan hasil.
-c, --plafon positif bilangan bulat
saat menggunakan opsi --fastidious (-f), tentukan kawananjejak memori maksimum
(dalam megabyte). kawanan akan menyesuaikan nilai --bloom-bits (-y) dari filter Bloom
agar sesuai dengan jumlah memori yang ditentukan. Opsi itu tidak aktif oleh
standar.
-d, --perbedaan nol or positif bilangan bulat
jumlah maksimum perbedaan yang diperbolehkan antara dua amplikon, yang berarti bahwa dua
amplikon akan dikelompokkan jika mereka memiliki bilangan bulat (atau kurang) perbedaan. Ini adalah
kawananparameter yang paling penting. Jumlah perbedaan dihitung sebagai
jumlah ketidaksesuaian (substitusi, penyisipan, atau penghapusan) antara keduanya
amplikon setelah penyelarasan global berpasangan yang optimal telah ditemukan (lihat
"opsi lanjutan penyelarasan berpasangan" untuk memengaruhi langkah itu). Setiap bilangan bulat
antara 0 dan 256 dapat digunakan, tetapi tinggi d nilai akan menurunkan taksonomi
resolusi dari kawanan hasil. Biasanya digunakan d nilainya 1, 2 atau 3, jarang lebih tinggi.
Ketika menggunakan d = 0, kawanan akan menampilkan hasil yang sesuai dengan ketat
dereplikasi dataset, yaitu menggabungkan amplikon yang identik. Peringatan, kawanan
masih membutuhkan entri fasta untuk menyajikan nilai kelimpahan. Jumlah default dari
perbedaan adalah 1.
-f, --rewel
saat bekerja dengan d = 1, lakukan pengelompokan pass kedua untuk mengurangi jumlah
OTU kecil (opsi yang disarankan). Selama proses pengelompokan dengan d = 1, dan
amplikon menengah dapat hilang karena alasan stokastik murni, interupsi
proses agregasi. Opsi itu akan membuat amplikon virtual, memungkinkan untuk
cangkok OTU kecil ke yang lebih besar. Secara default, OTU adalah "kecil" jika memiliki massa
dari 2 atau kurang (lihat opsi --boundary untuk meningkatkan nilai tersebut). Untuk mempercepat sesuatu
naik, kawanan menggunakan filter Bloom untuk menyimpan hasil antara. Peringatan, detik itu
pass bisa 2 sampai 3 kali lebih lambat dari pass pertama dan membutuhkan lebih banyak
Penyimpanan. Lihat opsi --bloom-bits (-y) atau --ceiling (-c) untuk mengontrol memori
jejak filter Bloom. Peringatan, opsi rewel memodifikasi pengelompokan
hasil. File output yang dihasilkan oleh opsi --log (-l), --output-file (-o),
--mothur (-r), --uclust-file, dan --seeds (-w) diperbarui untuk mencerminkan ini
modifikasi; file --statistics-file (-s) diperbarui sebagian (kolom 6
dan 7 tidak diperbarui); file output --internal-structure (-i) tidak diperbarui.
-h, --membantu
tampilkan bantuan ini dan keluar.
-n, --tidak-tidak-melanggar
nonaktifkan penyempurnaan OTU bawaan (tidak disarankan). Kelimpahan amplikon
nilai digunakan untuk mengidentifikasi transisi di antara OTU dalam kontak dan untuk memisahkan
mereka, menghasilkan hasil pengelompokan resolusi lebih tinggi. Opsi itu mencegahnya
pemisahan, dan dalam praktiknya, memungkinkan terciptanya hubungan antara amplikon A
dan B, bahkan jika kelimpahan B lebih tinggi dari kelimpahan A.
-t, --utas positif bilangan bulat
jumlah utas komputasi yang akan digunakan. Jumlah utas harus lebih sedikit atau
sama dengan jumlah core CPU yang tersedia. Jumlah utas default adalah 1.
-v, --Versi: kapan
informasi versi keluaran dan keluar.
-y, --bloom-bit positif bilangan bulat
saat menggunakan opsi --fastidious (-f), tentukan ukuran (dalam bit) setiap entri
dalam filter Bloom. Opsi itu memungkinkan untuk menyeimbangkan efisiensi (yaitu kecepatan)
dan jejak memori filter Bloom. Nilai besar akan membuat Bloom
filter lebih efisien tetapi akan membutuhkan lebih banyak memori. Nilai apa pun antara 4 dan 20
dapat digunakan. Nilai default adalah 16. Lihat opsi --ceiling (-c) untuk
cara alternatif untuk mengontrol jejak memori.
Input / Output Pilihan
-a, --tambahkan-kelimpahan positif bilangan bulat
atur nilai kelimpahan untuk digunakan ketika beberapa atau semua amplikon dalam file input kekurangan
nilai kelimpahan. Peringatan, tidak disarankan untuk menggunakan kawanan pada kumpulan data di mana
nilai kelimpahan semuanya identik. Kami menyediakan opsi itu sebagai rasa hormat kepada
pengguna tingkat lanjut, harap gunakan dengan hati-hati. kawanan keluar dengan pesan kesalahan jika
nilai kelimpahan tidak ada dan jika opsi ini tidak digunakan.
-i, --struktur internal nama file
keluaran semua pasang amplikon yang hampir identik ke nama file menggunakan lima kolom
format tab-delimited:
1. amplikon A label.
2. label amplikon B.
3. jumlah perbedaan antara amplikon A dan B (positif bilangan bulat).
4. Nomor OTU (positif bilangan bulat). OTU diberi nomor sesuai urutannya
penggambaran, mulai dari 1. Semua pasang amplikon milik
OTU yang sama akan menerima nomor yang sama.
5. jumlah langkah dari benih OTU ke amplikon B (positif bilangan bulat).
-l, --catatan nama file
keluarkan semua pesan ke nama file alih-alih standard kesalahan, dengan pengecualian
pesan kesalahan tentunya. Opsi itu berguna dalam situasi di mana menulis ke
standard kesalahan bermasalah (misalnya, dengan penjadwal pekerjaan tertentu).
-o, --berkas keluaran nama file
keluaran hasil pengelompokan ke nama file. Hasil terdiri dari daftar OTU, satu OTU
per baris. OTU adalah daftar pengidentifikasi amplikon yang dipisahkan oleh spasi. Bawaan
adalah untuk menulis ke output standar.
-r, --ibu
hasil pengelompokan output dalam format yang kompatibel dengan Mothur. Pilihan itu
memodifikasi kawananformat keluaran default.
-s, --statistik-file nama file
statistik keluaran ke nama file. File adalah tabel yang dipisahkan tab dengan satu OTU per
baris dan tujuh kolom informasi:
1. jumlah amplikon unik di OTU,
2. jumlah total salinan amplikon di OTU,
3. pengenal benih awal,
4. nomor salinan benih awal,
5. jumlah amplikon dengan nomor salinan 1 di OTU,
6. jumlah iterasi maksimum sebelum OTU mencapai naturalnya
batas),
7. radius maksimum teoritis dari OTU (yaitu, jumlah cummulated
perbedaan antara benih dan amplikon terjauh di OTU).
Jari-jari maksimum OTU yang sebenarnya seringkali jauh lebih kecil.
-u, --uclust-file nama file
pengelompokan output menghasilkan format file seperti uclust ke file yang ditentukan. Itu
opsi tidak mengubah kawananformat keluaran default.
-w, --biji nama file
keluaran perwakilan OTU untuk nama file dalam format cepat. Nilai kelimpahan dari
setiap perwakilan adalah jumlah kelimpahan semua amplikon di OTU.
-z, --usearch-kelimpahan
terima nilai kelimpahan amplicon dalam gaya userarch/vsearch
(>label;ukuran=bilangan bulat[;]). Opsi itu memengaruhi gaya anotasi kelimpahan
digunakan dalam file keluaran.
Berpasangan penjajaran maju Pilihan
saat menggunakan d > 1, kawanan mengenali opsi baris perintah lanjutan yang memodifikasi berpasangan
parameter penilaian keselarasan global:
-m, --hadiah-pertandingan positif bilangan bulat
mengatur hadiah untuk kecocokan nukleotida. Standarnya adalah 5.
-p, --ketidakcocokan-penalti positif bilangan bulat
menetapkan hukuman untuk ketidakcocokan nukleotida. Standarnya adalah 4.
-g, --celah-pembukaan-penalti positif bilangan bulat
mengatur celah terbuka penalti. Standarnya adalah 12.
-e, --celah-perpanjangan-penalti positif bilangan bulat
mengatur penalti perpanjangan celah. Standarnya adalah 4.
As kawanan berfokus pada hubungan dekat (mis d = 2 atau 3), hasil pengelompokan adalah
tahan terhadap modifikasi parameter model penyelarasan berpasangan. Memodifikasi parameter model
memiliki dampak yang lebih kuat saat mengelompokkan menggunakan yang lebih tinggi d nilai.
CONTOH
Kelompokkan kumpulan data file saya.fasta ke dalam OTU dengan resolusi terbaik (1
perbedaan, pemecahan bawaan, opsi rewel) menggunakan 4 utas komputasi. OTU adalah
ditulis ke file file saya.swarms, dan perwakilan OTU ditulis untuk
file saya.perwakilan.fasta.
kawanan -t 4 -f -w file saya.perwakilan.fasta < file saya.fasta > file saya.swarms
PENULIS
Konsep oleh Frédéric Mahé, implementasi oleh Torbjørn Rognes.
KUTIPAN
Mahé F, Rognes T, Quince C, de Vargas C, Dunthorn M. (2014) Swarm: kuat dan cepat
metode pengelompokan untuk studi berbasis amplikon. PeerJ 2:e593
<http://dx.doi.org/10.7717/peerj.593>
Mahé F, Rognes T, Quince C, de Vargas C, Dunthorn M. (2015) Swarm v2: sangat skalabel dan
pengelompokan amplikon resolusi tinggi. PeerJ 3:e1420http://dx.doi.org/10.7717/peerj.1420>
PELAPORAN BUG
Kirim saran dan laporan bug di , Kirim
tarik permintaan aktif , atau buat sajak yang ramah atau kasar
email ke Frédéric Mahé[email dilindungi]> dan Torbjørn Rognes[email dilindungi]>.
KETERSEDIAAN
Perangkat lunak ini tersedia dari:
HAK CIPTA
Hak Cipta (C) 2012, 2013, 2014, 2015 Frédéric Mahé & Torbjørn Rognes
Program ini adalah perangkat lunak gratis: Anda dapat mendistribusikan ulang dan/atau memodifikasinya di bawah ketentuan
Lisensi Publik Umum GNU Affero yang diterbitkan oleh Free Software Foundation, baik
versi 3 dari Lisensi, atau versi yang lebih baru.
Program ini disebarluaskan dengan harapan dapat bermanfaat, namun TANPA JAMINAN APAPUN;
bahkan tanpa jaminan tersirat tentang KELAYAKAN DIPERDAGANGKAN atau KESESUAIAN UNTUK TUJUAN TERTENTU.
Lihat Lisensi Publik Umum GNU Affero untuk lebih jelasnya.
Anda seharusnya telah menerima salinan dari GNU Affero General Public License bersama dengan ini
program. Jika tidak, lihathttp://www.gnu.org/licenses/>.
Gunakan swarm online menggunakan layanan onworks.net
