cmsearch - Trực tuyến trên Đám mây

Đây là lệnh cmsearch có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS

CHƯƠNG TRÌNH:

TÊN


cmsearch - (các) mô hình hiệp phương sai tìm kiếm dựa trên cơ sở dữ liệu trình tự

SYNOPSIS


cmsearch [tùy chọn]

MÔ TẢ


cmsearch được sử dụng để tìm kiếm một hoặc nhiều mô hình hiệp phương sai (CM) dựa trên một chuỗi
cơ sở dữ liệu. Đối với mỗi CM trong , sử dụng CM truy vấn đó để tìm kiếm cơ sở dữ liệu mục tiêu của
trình tự trong , và đầu ra danh sách được xếp hạng của các trình tự có
phù hợp với CM. Để tạo CM từ nhiều liên kết, hãy xem cmbuild.

Truy vấn phải được hiệu chuẩn cho các giá trị E với cmhiệu chỉnh. Như một người đặc biệt
ngoại lệ, bất kỳ mô hình nào trong không có cặp bazơ không cần được hiệu chuẩn. Vì
các mô hình này, thuật toán tìm kiếm HMM hồ sơ sẽ được sử dụng thay vì các mô hình CM, như đã thảo luận
xa hơn bên dưới.

Truy vấn có thể là '-' (một ký tự gạch ngang), trong trường hợp này, đầu vào CM truy vấn sẽ là
đọc từ một đường ống thay vì từ một tệp. Các có thể không phải là '-' bởi vì
triển khai hiện tại cần có khả năng tua lại cơ sở dữ liệu, điều này không thể thực hiện được với
tiêu chuẩn đầu vào.

Định dạng đầu ra được thiết kế để con người có thể đọc được, nhưng thường quá lớn nên
đọc nó là không thực tế, và phân tích nó là một nỗi đau. Các --tbout tùy chọn lưu đầu ra trong một
định dạng bảng đơn giản ngắn gọn và dễ phân tích cú pháp hơn. Các -o tùy chọn cho phép
chuyển hướng đầu ra chính, bao gồm cả việc ném nó đi trong / dev / null.

cmsearch xem xét lại thuật ngữ 5 'và 3' của chuỗi mục tiêu bằng cách sử dụng các thuật toán chuyên biệt
để phát hiện cắt ngắn lần truy cập, trong đó một phần của phần cuối 5 'và / hoặc 3' của toàn bộ thực tế
độ dài trình tự tương đồng bị thiếu trong tệp trình tự đích. Những kiểu truy cập này
sẽ phổ biến nhất trong các tệp trình tự bao gồm các lần đọc trình tự không được lắp ráp. Qua
mặc định, bất kỳ lần truy cập bị cắt ngắn 5 'nào đều được yêu cầu bao gồm phần dư đầu tiên của mục tiêu
trình tự nó bắt nguồn từ trong , và bất kỳ lần truy cập bị cắt 3 'nào đều được yêu cầu bao gồm
phần còn lại cuối cùng của trình tự đích mà nó thu được. Bất kỳ lần truy cập bị cắt ngắn 5 'và 3' nào đều phải
bao gồm phần dư đầu tiên và phần cuối cùng của trình tự đích mà nó thu được. Các --anytrunc
tùy chọn sẽ giảm bớt các yêu cầu đối với việc bao gồm lần truy cập của các điểm cuối trình tự và bị cắt bớt
lượt truy cập được phép bắt đầu và dừng lại ở bất kỳ vị trí nào của chuỗi mục tiêu. Quan trọng
mặc dù, với --anytrunc, Các giá trị E nhấn sẽ kém chính xác hơn vì hiệu chuẩn mô hình không
không xem xét khả năng xảy ra các lần truy cập bị cắt ngắn, vì vậy hãy sử dụng nó một cách thận trọng. Các --notrunc
có thể được sử dụng để tắt tính năng phát hiện lần truy cập bị cắt ngắn. --notrunc sẽ giảm chạy
thời gian tìm kiếm, quan trọng nhất cho mục tiêu các tệp bao gồm nhiều
trình tự.

Tính năng phát hiện lần truy cập bị cắt ngắn sẽ tự động tắt khi - tối đa, --khôngmm, --qdb, or
- không bị bó các tùy chọn được sử dụng vì nó dựa trên việc sử dụng băng tần HMM tăng tốc
chiến lược liên kết bị tắt bởi bất kỳ tùy chọn nào trong số đó.

LỰA CHỌN


-h Cứu giúp; in lời nhắc ngắn gọn về việc sử dụng dòng lệnh và tất cả các tùy chọn có sẵn.

-g Bật địa phương thuật toán căn chỉnh, toàn cục đối với mô hình truy vấn và
cục bộ đối với cơ sở dữ liệu đích. Theo mặc định, căn chỉnh cục bộ
thuật toán được sử dụng cục bộ đối với cả chuỗi mục tiêu và
người mẫu. Ở chế độ cục bộ, căn chỉnh để kéo dài hai hoặc nhiều chuỗi con nếu cần
(ví dụ: nếu cấu trúc của mô hình truy vấn và chuỗi mục tiêu chỉ là một phần
chia sẻ), cho phép một số chèn và xóa lớn nhất định trong cấu trúc được
bị phạt khác với indels bình thường. Chế độ cục bộ hoạt động tốt hơn trên thực nghiệm
điểm chuẩn và nhạy hơn đáng kể để phát hiện tương đồng từ xa.
Theo kinh nghiệm, các tìm kiếm toàn cục trả lại ít lượt truy cập hơn các tìm kiếm cục bộ, do đó
có thể được mong muốn cho một số ứng dụng. Với -NS, tất cả các mô hình phải được hiệu chỉnh, thậm chí
những người không có bazơ.

-Z Tính toán các giá trị E như thể kích thước không gian tìm kiếm là megabases (Mb). Không có
sử dụng tùy chọn này, kích thước không gian tìm kiếm được xác định là tổng số
nucleotide trong lần 2, bởi vì cả hai sợi của mỗi chuỗi mục tiêu sẽ
được tìm kiếm.

--devhelp
Trợ giúp in, như với -h , mà còn bao gồm các tùy chọn chuyên gia không được hiển thị
với -h . Các lựa chọn chuyên gia này dự kiến ​​sẽ không phù hợp với
phần lớn người dùng và do đó không được mô tả trong trang hướng dẫn sử dụng. Các tài nguyên duy nhất
để hiểu những gì họ thực sự làm là đầu ra mô tả một dòng ngắn gọn
khi nào --devhelp được kích hoạt và mã nguồn.

LỰA CHỌN CHO KIỂM SOÁT OUTPUT


-o Hướng đầu ra chính mà con người có thể đọc được vào một tệp thay vì stdout mặc định.

-A Lưu nhiều sự liên kết của tất cả các lượt truy cập quan trọng (những lượt truy cập thỏa mãn đưa vào
ngưỡng) vào tập tin .

--tbout
Lưu một tệp dạng bảng đơn giản (được phân cách bằng dấu cách) tóm tắt các lần truy cập được tìm thấy, với một
dòng dữ liệu mỗi lần truy cập. Định dạng của tệp này được mô tả trong hướng dẫn sử dụng Infernal.

--NS Sử dụng quyền truy cập thay vì tên trong đầu ra chính, nếu có sẵn cho cấu hình
và / hoặc trình tự.

--noali
Bỏ qua phần căn chỉnh khỏi đầu ra chính. Điều này có thể làm giảm đáng kể sản lượng
âm lượng.

--notextw
Bỏ qua độ dài của mỗi dòng trong đầu ra chính. Mặc định là giới hạn 120
các ký tự trên mỗi dòng, giúp hiển thị đầu ra rõ ràng trên các thiết bị đầu cuối và
trong trình chỉnh sửa, nhưng có thể cắt bớt các dòng mô tả hồ sơ đích.

--textw
Đặt giới hạn độ dài dòng của đầu ra chính thành các ký tự trên mỗi dòng. Mặc định là
120.

--dài dòng
Bao gồm các số liệu thống kê về kênh tìm kiếm bổ sung trong đầu ra chính, bao gồm cả bộ lọc
thống kê tỷ lệ sống sót để phát hiện lần truy cập bị cắt ngắn và số lượng phong bì bị loại bỏ
do tràn kích thước ma trận.

LỰA CHỌN KIỂM SOÁT BÁO CÁO NGƯỠNG


Các ngưỡng báo cáo kiểm soát lần truy cập nào được báo cáo trong các tệp đầu ra (đầu ra chính và
--tblout) Lượt truy cập được xếp hạng theo ý nghĩa thống kê (E-value). Theo mặc định, tất cả các lần truy cập
với giá trị E <= 10 được báo cáo. Các tùy chọn sau đây cho phép bạn thay đổi giá trị mặc định
Các ngưỡng báo cáo giá trị điện tử hoặc sử dụng ngưỡng điểm bit thay thế.

-E Trong đầu ra cho mỗi mục tiêu, hãy báo cáo chuỗi mục tiêu có giá trị E là <= . Sản phẩm
mặc định là 10.0, có nghĩa là trung bình, khoảng 10 kết quả dương tính giả sẽ được báo cáo
cho mỗi truy vấn, vì vậy bạn có thể thấy đầu của tiếng ồn và tự quyết định xem nó có
thực sự ồn ào.

-T Thay vì đặt ngưỡng đầu ra trên mỗi CM trên E-value, hãy báo cáo chuỗi mục tiêu với
điểm bit của> = .

LỰA CHỌN CHO BAO GỒM NGƯỠNG


Ngưỡng đưa vào nghiêm ngặt hơn ngưỡng báo cáo. Kiểm soát ngưỡng bao gồm
lượt truy cập nào được coi là đủ tin cậy để được đưa vào căn chỉnh đầu ra hoặc
trong một vòng tìm kiếm tiếp theo có thể xảy ra hoặc được đánh dấu là quan trọng ("!") thay vì
có nghi vấn ("?") trong đầu ra lần truy cập.

--incE
Sử dụng giá trị E là <= là ngưỡng bao gồm lần truy cập. Giá trị mặc định là 0.01,
nghĩa là trung bình, cứ 1
tìm kiếm với các chuỗi truy vấn khác nhau.

--incT
Thay vì sử dụng các giá trị E để đặt ngưỡng bao gồm, hãy sử dụng một chút
điểm> = là ngưỡng bao gồm lần truy cập. Theo mặc định, tùy chọn này không được đặt.

LỰA CHỌN CHO MÔ HÌNH-CỤ THỂ SCORE NGƯỠNG


Cơ sở dữ liệu CM được tuyển chọn có thể xác định các ngưỡng điểm bit cụ thể cho từng CM, thay thế bất kỳ
xác định ngưỡng chỉ dựa trên ý nghĩa thống kê.

Để sử dụng các tùy chọn này, hồ sơ phải chứa (GA, TC và / hoặc NC) thích hợp
chú thích ngưỡng điểm tùy chọn; cái này được nhặt bởi cmbuild từ định dạng Stockholm
các tập tin căn chỉnh. Mỗi tùy chọn ngưỡng có điểm là bit và hoạt động như thể -T
--incT đã được áp dụng cụ thể bằng cách sử dụng các ngưỡng được sắp xếp của từng mô hình.

--cut_ga
Sử dụng điểm số bit GA (thu thập) trong mô hình để đặt báo cáo lần truy cập và bao gồm
các ngưỡng. Ngưỡng GA thường được coi là ngưỡng đáng tin cậy
các ngưỡng xác định thành viên gia đình; ví dụ, trong Rfam, các ngưỡng này
xác định những gì được bao gồm trong Rfam Căn chỉnh đầy đủ dựa trên các tìm kiếm với Rfam Seed
.

--cut_nc
Sử dụng các ngưỡng điểm số bit NC (cắt tiếng ồn) trong mô hình để đặt báo cáo lần truy cập
và ngưỡng bao gồm. Ngưỡng NC thường được coi là điểm của
dương tính giả có điểm số cao nhất đã biết.

--cut_tc
Sử dụng các ngưỡng điểm số bit TC (ngưỡng đáng tin cậy) trong mô hình để đặt báo cáo lần truy cập
và ngưỡng bao gồm. Ngưỡng TC thường được coi là điểm của
dương tính thật đã biết được cho điểm thấp nhất, cao hơn tất cả dương tính giả đã biết.

LỰA CHỌN KIỂM SOÁT CÁC SỰ TĂNG TỐC ĐƯỜNG ỐNG


Các tìm kiếm Infernal 1.1 được tăng tốc trong một hệ thống lọc sáu giai đoạn. Năm đầu tiên
các giai đoạn sử dụng một hồ sơ HMM để xác định các phong bì được chuyển đến giai đoạn sáu CM CYK
lọc. Bất kỳ phong bì nào tồn tại qua tất cả các bộ lọc đều được chỉ định điểm cuối cùng bằng CM
Thuật toán bên trong. (Xem hướng dẫn sử dụng để biết thêm thông tin.)

Bộ lọc HMM hồ sơ được xây dựng bởi cmbuild chương trình và được lưu trữ trong .

Mỗi bộ lọc kế tiếp chậm hơn bộ lọc trước đó, nhưng tốt hơn bộ lọc đó ở
loại bỏ giữa các chuỗi con có thể chứa các lần truy cập CM điểm cao và những lần truy cập
không phải. Ba giai đoạn bộ lọc HMM đầu tiên giống như giai đoạn được sử dụng trong HMMER3. Giai đoạn 1 (F1)
là bộ lọc SSV HMM cục bộ được sửa đổi cho các chuỗi dài. Giai đoạn 2 (F2) là HMM cục bộ
Bộ lọc Viterbi. Giai đoạn 3 (F3) là bộ lọc Chuyển tiếp HMM cục bộ. Mỗi người trong số ba phần đầu tiên
các giai đoạn sử dụng hồ sơ HMM ở chế độ cục bộ, cho phép một chuỗi mục tiêu điều chỉnh theo
bất kỳ vùng nào của HMM. Giai đoạn 4 (F4) là một bộ lọc HMM toàn cầu, yêu cầu một mục tiêu
trình tự phụ để căn chỉnh với hồ sơ có độ dài đầy đủ HMM. Giai đoạn 5 (F5) là HMM toàn cầu
bộ lọc định nghĩa phong bì, sử dụng phương pháp thừa kế nhận dạng miền của HMMER3 để xác định
ranh giới phong bì. Sau mỗi giai đoạn từ 2 đến 5, một bước lọc thiên vị (F2b, F3b, F4b và
F5b) được sử dụng để loại bỏ các trình tự dường như đã vượt qua bộ lọc do sai lệch
thành phần một mình. Bất kỳ phong bì nào tồn tại từ các giai đoạn F1 đến F5b sau đó sẽ được chuyển với
bộ lọc CM CYK cục bộ. Bộ lọc CYK sử dụng các ràng buộc (dải) bắt nguồn từ HMM
căn chỉnh của phong bì để giảm số lượng các phép tính cần thiết và tiết kiệm thời gian.
Bất kỳ phong bì nào vượt qua CYK đều được tính điểm bằng thuật toán CM Inside cục bộ, một lần nữa sử dụng HMM
các dải để tăng tốc.

Các ngưỡng bộ lọc mặc định xác định điểm tối thiểu cần thiết cho một chuỗi con để
sống sót qua mỗi giai đoạn được xác định dựa trên kích thước của cơ sở dữ liệu trong (hoặc kích thước
tính bằng megabases (Mb) được chỉ định bởi -Z or --FZ tùy chọn). Đối với cơ sở dữ liệu lớn hơn,
các bộ lọc nghiêm ngặt hơn dẫn đến tăng tốc nhiều hơn nhưng có khả năng mất mát nhiều hơn
nhạy cảm. Cơ sở lý luận là đối với cơ sở dữ liệu lớn hơn, lần truy cập phải có điểm cao hơn để
đạt được ý nghĩa thống kê, do đó, bộ lọc chặt chẽ hơn sẽ loại bỏ điểm thấp hơn
lượt truy cập không đáng kể có thể chấp nhận được.

Các ngưỡng giá trị P cho tất cả các kích thước không gian tìm kiếm có thể có và tất cả các giai đoạn lọc là
được liệt kê tiếp theo. (Ngưỡng giá trị P là 0.01 có nghĩa là khoảng 1% điểm cao nhất
dự kiến ​​sẽ vượt qua được bộ lọc con nonhomologous.) Z được định nghĩa là số
nucleotide trong tệp trình tự đích hoàn chỉnh lần 2 vì cả hai sợi sẽ
đã tìm kiếm với từng mô hình.

Nếu Z nhỏ hơn 2 Mb: F1 là 0.35; F2 và F2b đều tắt; F3, F3b, F4, F4b và F5 là 0.02;
F6 là 0.0001.

Nếu Z nằm trong khoảng từ 2 Mb đến 20 Mb: F1 là 0.35; F2 và F2b đều tắt; F3, F3b, F4, F4b và F5
là 0.005; F6 là 0.0001.

Nếu Z từ 20 Mb đến 200 Mb: F1 là 0.35; F2 và F2b là 0.15; F3, F3b, F4, F4b và F5
là 0.003; F6 là 0.0001.

Nếu Z nằm trong khoảng từ 200 Mb đến 2 Gb: F1 là 0.15; F2 và F2b là 0.15; F3, F3b, F4, F4b, F5,
và F5b là 0.0008; và F6 là 0.0001.

Nếu Z từ 2 Gb đến 20 Gb: F1 là 0.15; F2 và F2b là 0.15; F3, F3b, F4, F4b, F5 và
F5b là 0.0002; và F6 là 0.0001.

Nếu Z nhiều hơn 20 Gb: F1 là 0.06; F2 và F2b là 0.02; F3, F3b, F4, F4b, F5 và F5b
là 0.0002; và F6 là 0.0001.

Các ngưỡng này được chọn dựa trên hiệu suất trong một thử nghiệm điểm chuẩn nội bộ, nhiều
các cài đặt có thể khác nhau.

Có năm tùy chọn để kiểm soát mức lọc chung. Các tùy chọn này, trong
thứ tự từ ít nghiêm ngặt nhất (chậm nhất nhưng nhạy cảm nhất) đến nghiêm ngặt nhất (nhanh nhất nhưng ít nhất
nhạy cảm): - tối đa, --khôngmm, --giữa, --vỡ nợ, (Đây là thiết lập mặc định), --rfam.
--chỉ thôi. Với --vỡ nợ các ngưỡng bộ lọc sẽ phụ thuộc vào kích thước cơ sở dữ liệu. Xem
giải thích về từng tùy chọn riêng lẻ này bên dưới để biết thêm thông tin.

Ngoài ra, người dùng thành thạo có thể kiểm soát chính xác từng ngưỡng điểm của giai đoạn bộ lọc với
các --F1, --F1b, --F2, --F2b, --F3, --F3b, --F4, --F4b, --F5, --F5b,--F6 tùy chọn. Như
cũng như bật hoặc tắt từng giai đoạn với --noF1, --doF1b, --noF2, --noF2b, --noF3,
--noF3b, --noF4, --noF4b, --noF5,--noF6. tùy chọn. Các tùy chọn này chỉ được hiển thị
nếu --devhelp tùy chọn được sử dụng để giữ số lượng tùy chọn được hiển thị với -h
hợp lý, và bởi vì chúng chỉ được mong đợi hữu ích cho một số ít người dùng.

Là một trường hợp đặc biệt, đối với bất kỳ mô hình nào trong không có bazơ, hồ sơ HMM
tìm kiếm được chạy thay vì tìm kiếm CM. Các thuật toán HMM hiệu quả hơn CM
các thuật toán và lợi ích của thuật toán CM bị mất đối với các mô hình không có
cấu trúc (không bazơ). Các tìm kiếm HMM hồ sơ này sẽ chạy nhanh hơn đáng kể so với
tìm kiếm CM. Bạn có thể buộc các tìm kiếm chỉ HMM với --chỉ Lựa chọn. Để biết thêm
thông tin về các tìm kiếm chỉ HMM xem mô tả của --chỉ tùy chọn bên dưới, và
hướng dẫn sử dụng.

--max Tắt tất cả các bộ lọc và chạy Inside không phân dải trên mọi mục tiêu có độ dài đầy đủ
sự nối tiếp. Điều này làm tăng độ nhạy phần nào, với một chi phí cực kỳ lớn về tốc độ.

--nohmm
Tắt tất cả các giai đoạn lọc HMM (F1 đến F5b). Bộ lọc CYK, sử dụng QDB, sẽ
được chạy trên mọi chuỗi mục tiêu có độ dài đầy đủ và sẽ thực thi ngưỡng giá trị P là
0.0001. Mỗi dãy con còn tồn tại CYK sẽ được chuyển vào Inside, điều này sẽ
cũng sử dụng QDBs (nhưng một tập hợp lỏng hơn). Điều này làm tăng độ nhạy phần nào, rất
chi phí lớn về tốc độ.

--giữa Tắt các giai đoạn lọc HMM SSV và Viterbi (F1 đến F2b). Đặt HMM còn lại
ngưỡng bộ lọc (F3 đến F5b) thành 0.02 theo mặc định, nhưng có thể thay đổi thành với
--Fmid sự nối tiếp. Điều này có thể làm tăng độ nhạy, với một chi phí đáng kể về tốc độ.

--vỡ nợ
Sử dụng chiến lược lọc mặc định. Tùy chọn này được bật mặc định. Bộ lọc
ngưỡng được xác định dựa trên kích thước cơ sở dữ liệu.

--rfam Sử dụng chiến lược lọc nghiêm ngặt dành cho cơ sở dữ liệu lớn (hơn 20 Gb). Cái này
sẽ đẩy nhanh quá trình tìm kiếm với chi phí tiềm ẩn đối với độ nhạy. Nó sẽ không có
có hiệu lực nếu cơ sở dữ liệu lớn hơn 20 Gb.

--chỉ
Chỉ sử dụng cấu hình bộ lọc HMM cho các tìm kiếm, không sử dụng CM. Chỉ bộ lọc
các giai đoạn từ F1 đến F3 sẽ được thực thi, sử dụng các ngưỡng giá trị P nghiêm ngặt (0.02 cho
F1, 0.001 cho F2 và 0.00001 cho F3). Ngoài ra, một bộ lọc thành phần thiên vị là
được sử dụng sau giai đoạn F1 (với ngưỡng sống sót P = 0.02). Bất kỳ cú đánh nào sống sót
tất cả các giai đoạn và có giá trị E-HMM hoặc điểm số bit trên ngưỡng báo cáo sẽ
là đầu ra. Người dùng có thể thay đổi các ngưỡng và tùy chọn bộ lọc chỉ HMM với
--hmmF1, --hmmF2, --hmmF3, --hmmnobias, --hmmnonull2,--hmm tối đa. Theo mặc định,
tìm kiếm bất kỳ mô hình nào không có cặp đáy sẽ được chạy ở chế độ chỉ HMM. Cái này có thể
bị tắt, buộc CM tìm kiếm các mô hình này với --chỉ tùy chọn.
Các tùy chọn này chỉ được hiển thị nếu --devhelp tùy chọn được sử dụng.

--FZ
Đặt ngưỡng bộ lọc làm giá trị mặc định được sử dụng nếu cơ sở dữ liệu siêu cơ sở (Mb).
Nếu được sử dụng với lớn hơn 20000 (20 Gb) tùy chọn này có tác dụng tương tự như
--rfam.

--Fmid
Với --giữa đặt các ngưỡng bộ lọc HMM (F3 đến F5b) thành . By
vỡ nợ, là 0.02.

KHÁC LỰA CHỌN


--notrunc
Tắt tính năng phát hiện lần truy cập bị cắt ngắn.

--anytrunc
Cho phép các lần truy cập bị cắt ngắn bắt đầu và kết thúc ở bất kỳ vị trí nào trong chuỗi mục tiêu. Qua
mặc định, các lần truy cập bị cắt bớt 5 'phải bao gồm phần còn lại đầu tiên của chuỗi mục tiêu của chúng
và 3 lần truy cập bị cắt ngắn phải bao gồm phần còn lại cuối cùng của chuỗi mục tiêu của chúng. Với
tùy chọn này, bạn có thể quan sát thấy ít lần truy cập có thời lượng đầy đủ kéo dài đến đầu và
cuối truy vấn CM.

--nonul3
Tắt hiệu chỉnh điểm CM null3 cho thành phần thiên vị. Điều chỉnh này là
không được sử dụng trong các giai đoạn lọc HMM.

--mxsize
Đặt kích thước ma trận CM DP tối đa cho phép thành megabyte. Theo mặc định kích thước này
là 128 Mb. Điều này phải đủ lớn cho phần lớn các tìm kiếm,
đặc biệt là với các mô hình nhỏ hơn. Nếu như cmsearch gặp một phong bì trong CYK hoặc
Giai đoạn bên trong yêu cầu ma trận lớn hơn, phong bì sẽ được chiết khấu từ
Sự xem xét. Hành vi này giống như một bộ lọc bổ sung để ngăn chặn sự tốn kém
(chậm) CM DP tính toán, nhưng với chi phí tiềm ẩn đối với độ nhạy. Lưu ý rằng nếu
cmsearch đang được chạy trong nhiều luồng trên một máy đa lõi rồi mỗi luồng
luồng có thể có một ma trận được phân bổ có kích thước tối đa Mb tại bất kỳ thời điểm nào.

--smxsize
Đặt kích thước ma trận DP tìm kiếm CM tối đa cho phép thành megabyte. Theo mặc định
kích thước này là 128 Mb. Tùy chọn này chỉ phù hợp nếu CM không sử dụng HMM
ma trận dải, tức là nếu - tối đa, --khôngmm, --qdb, --fqdb, --băng, or
--fnonbanded các tùy chọn cũng được sử dụng. Lưu ý rằng nếu cmsearch đang được chạy trong
nhiều luồng trên một máy đa lõi thì mỗi luồng có thể có một
ma trận lên đến kích thước Mb tại bất kỳ thời điểm nào.

--cyk Sử dụng thuật toán CYK, không phải Inside, để xác định điểm cuối cùng của tất cả các lần truy cập.

--acyk Sử dụng thuật toán CYK để căn chỉnh số lần truy cập. Theo mặc định, độ chính xác tối ưu của Durbin / Holmes
thuật toán được sử dụng để tìm sự liên kết tối đa hóa độ chính xác mong đợi
của tất cả các dư lượng được sắp xếp.

--wcx
Đối với mỗi CM, hãy đặt thông số W, độ dài tối đa dự kiến ​​của một lần truy cập, thành
nhân với độ dài đồng thuận của mô hình. Theo mặc định, tham số W được đọc từ
tệp CM và được tính toán dựa trên xác suất chuyển đổi của mô hình
by cmbuild. Bạn có thể tìm hiểu W mặc định cho một mô hình sử dụng cmstat. T
tùy chọn nên được sử dụng thận trọng vì nó ảnh hưởng đến đường ống lọc ở một số
các giai đoạn khác nhau theo những cách rõ ràng. Nó chỉ được đề xuất cho người dùng chuyên nghiệp
tìm kiếm các lần truy cập dài hơn nhiều so với bất kỳ phép tương đồng nào được sử dụng để xây dựng
mô hình trong cmbuild, ví dụ như những cái có phần giới thiệu lớn hoặc phần chèn lớn khác. Cái này
không thể sử dụng tùy chọn kết hợp với --khôngmm, --fqdb or --qdb lựa chọn
vì trong những trường hợp đó W bị giới hạn bởi các dải phụ thuộc truy vấn.

--chỉ
Chỉ tìm kiếm chuỗi mục tiêu trên cùng (Watson) trong . Theo mặc định,
cả hai sợi đều được tìm kiếm. Điều này sẽ giảm một nửa kích thước cơ sở dữ liệu (Z).

--bottomchỉ
Chỉ tìm kiếm phần dưới cùng của chuỗi mục tiêu trong . Theo mặc định,
cả hai sợi đều được tìm kiếm. Điều này sẽ giảm một nửa kích thước cơ sở dữ liệu (Z).

--tformat
Khẳng định rằng tệp cơ sở dữ liệu trình tự đích có định dạng . Các định dạng được chấp nhận
bao gồm nhanh, nhúng, ngân hàng gen, đbj, X-tốc-khôm, , a2m, một FA, cụm,cây cỏ
Mặc định là tự động phát hiện định dạng của tệp.

--CPU
Đặt số luồng công nhân song song thành . Theo mặc định, Infernal đặt điều này
đến số lõi CPU mà nó phát hiện trong máy của bạn - nghĩa là nó cố gắng
tối đa hóa việc sử dụng các lõi bộ xử lý có sẵn của bạn. Thiết lập cao hơn
số lượng lõi có sẵn là rất ít nếu có giá trị, nhưng bạn có thể muốn đặt nó thành
một cái gì đó ít hơn. Bạn cũng có thể kiểm soát con số này bằng cách thiết lập môi trường
biến, INFERSAL_NCPU. Tùy chọn này chỉ khả dụng nếu Infernal được biên dịch
với hỗ trợ luồng POSIX. Đây là mặc định, nhưng nó có thể đã bị tắt lúc
thời gian biên dịch cho trang web hoặc máy của bạn vì một số lý do.

--ngăn cản
Để gỡ lỗi phiên bản chính / công nhân MPI: tạm dừng sau khi bắt đầu, để bật
nhà phát triển để đính kèm trình gỡ lỗi vào (các) quy trình chính và công nhân đang chạy. Gửi
Tín hiệu SIGCONT để giải phóng tạm dừng. (Theo gdb: (Gdb) tín hiệu KÝ HIỆU) (Chỉ có
khả dụng nếu hỗ trợ MPI tùy chọn được bật tại thời điểm biên dịch.)

--mpi Chạy ở chế độ chính / công nhân MPI, sử dụng mpirun. sử dụng --mpi, tệp trình tự phải
lần đầu tiên được 'lập chỉ mục' bằng cách sử dụng tìm nạp esl chương trình, được bao gồm với
Infernal, trong giá vẽ / miniapps / thư mục con. (Chỉ khả dụng nếu MPI tùy chọn
hỗ trợ đã được kích hoạt tại thời điểm biên dịch.)

Sử dụng cmsearch trực tuyến bằng các dịch vụ onworks.net



Các chương trình trực tuyến Linux & Windows mới nhất