Đây là lệnh sumaclust có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS
CHƯƠNG TRÌNH:
TÊN
Sumaclust - cụm sao của chuỗi gen
SYNOPSIS
mùa hè [tùy chọn]
MÔ TẢ
Với sự phát triển của giải trình tự thế hệ tiếp theo, cần có các công cụ hiệu quả để xử lý
hàng triệu chuỗi trong khoảng thời gian hợp lý. Sumaclust là một chương trình được phát triển bởi
LECA. Sumaclust nhằm mục đích phân cụm các chuỗi theo cách nhanh chóng và chính xác cùng một lúc
thời gian. Công cụ này đã được phát triển để điều chỉnh cho phù hợp với loại dữ liệu được tạo ra bởi DNA
metabarcoding, tức là các điểm đánh dấu ngắn, được sắp xếp theo trình tự hoàn toàn. Sumaclust cụm trình tự sử dụng
cùng một thuật toán phân cụm như UCLUST và CD-HIT. Thuật toán này chủ yếu hữu ích để
phát hiện các trình tự 'sai' được tạo ra trong quá trình khuếch đại và giao thức giải trình tự,
bắt nguồn từ các chuỗi 'true'.
LỰA CHỌN
-h [H] elp - in Cứu giúp
-l : Độ dài chuỗi tham chiếu là ngắn nhất.
-L Độ dài chuỗi tham chiếu là lớn nhất.
-a Độ dài chuỗi tham chiếu là độ dài căn chỉnh (mặc định).
-n Điểm được chuẩn hóa theo độ dài chuỗi tham chiếu (mặc định).
-r : Điểm thô, không chuẩn hóa.
-d : Điểm được thể hiện bằng khoảng cách (mặc định: điểm được thể hiện bằng độ tương đồng).
-t ##. ##: Ngưỡng điểm để phân nhóm. Nếu điểm số được chuẩn hóa và thể hiện bằng
tương tự (mặc định),
nó là một danh tính, ví dụ 0.95 cho một danh tính là 95%. Nếu điểm số được chuẩn hóa và
được thể hiện bằng khoảng cách, nó là (1.0 - danh tính), ví dụ: 0.05 cho mức nhận dạng là 95%.
Nếu điểm số không được chuẩn hóa và được thể hiện tương tự, thì đó là độ dài của
Trình tự con chung dài nhất. Nếu điểm số không được chuẩn hóa và thể hiện bằng
khoảng cách, nó là (chiều dài tham chiếu - chiều dài LCS). Chỉ các chuỗi có sự giống nhau
trên ##. ## với chuỗi trung tâm của một cụm được gán cho cụm đó.
Mặc định: 0.97.
-e Tùy chọn chính xác: Một chuỗi được chỉ định cho cụm với chuỗi trung tâm
hiển thị điểm tương đồng cao nhất> ngưỡng, trái ngược với mặc định
tùy chọn 'nhanh' trong đó trình tự được chỉ định cho cụm đầu tiên được tìm thấy với trung tâm
trình tự trình bày một điểm số> ngưỡng.
-R ## Tỷ lệ tối đa giữa số lượng của hai chuỗi sao cho chuỗi ít nhiều hơn có thể
được coi là một biến thể của một loại phong phú hơn. Mặc định: 1.0.
-p ## Đa luồng với ## luồng bằng openMP.
-s ####
Sắp xếp theo ####. Phải là 'Không có' để không sắp xếp hoặc một khóa trong tiêu đề fasta của
mỗi trình tự, ngoại trừ số lượng có thể được tính toán (mặc định: sắp xếp theo
đếm).
-o Sắp xếp theo thứ tự tăng dần (mặc định: giảm dần).
-g n được thay thế bằng a (mặc định: các dãy có n bị loại bỏ).
-B ### Đầu ra của bảng OTU ở định dạng BIOM được kích hoạt và được ghi vào tệp ###.
-O ### Đầu ra của bản đồ OTU (bản đồ quan sát) được kích hoạt và được ghi vào tệp ###.
-F ### Đầu ra ở định dạng FASTA được ghi vào tệp ### thay vì đầu ra tiêu chuẩn.
-f Đầu ra ở định dạng FASTA bị vô hiệu hóa.
Đối số: tập dữ liệu nucleotide để phân cụm
Sử dụng sumaclust trực tuyến bằng các dịch vụ onworks.net