이는 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 hmmbuild 명령입니다.
프로그램:
이름
hmmbuild - 다중 서열 정렬(들)로부터 프로필 HMM(들) 구성
개요
흠 빌드 [옵션]
기술
각 다중 서열 정렬에 대해 프로필 HMM을 작성하고 새
파일 .
'-'(대시)일 수 있으며, 이는 다음에서 이 입력을 읽는 것을 의미합니다. 표준 파일보다는.
'-'를 사용하려면 다음과 같이 정렬 파일 형식도 지정해야 합니다. --정보 , ~ 같이
--정보 스톡홀름 (구현의 현재 제한으로 인해 MSA 파일
되감기 불가능한 입력 스트림에서는 형식을 자동 감지할 수 없습니다.)
'-'가 아닐 수 있습니다. (표준 출력), HMM 파일을 표준 출력 겠지
프로그램의 다른 텍스트 출력과 충돌합니다.
옵션
-h 돕다; 명령줄 사용 및 사용 가능한 모든 옵션에 대한 간략한 알림을 인쇄합니다.
-n 새 프로필 이름 지정 . 기본값은 선형 이름을 사용하는 것입니다(하나인 경우
에 존재 msa파일, 또는 그렇지 않은 경우 흠 파일. 면 msa파일
둘 이상의 선형을 포함하고 -n 작동하지 않으며 모든 정렬에는
에 주석이 달린 이름 msa파일 (스톡홀름 #=GF ID 주석에서와 같이).
-o 요약 출력을 파일로 보내기 , 하기보다는 표준 출력.
-O 각 모델이 구성된 후 주석이 달린 수정된 소스를 다시 저장합니다.
파일에 대한 정렬 스톡홀름 형식으로. 정렬은
합의로 할당된 열을 나타내는 참조 주석 라인 및
시퀀스에는 할당된 상대 시퀀스 가중치로 주석이 추가됩니다. 일부
의 제한 사항을 수용하기 위해 정렬의 잔류물이 이동되었을 수 있습니다.
삽입과 삭제 간의 전환을 허용하지 않는 Plan7 프로필 아키텍처
상태.
옵션 위한 지정 L' 알파
알파벳 유형(아미노, DNA 또는 RNA)은 기본적으로
의 구성 msa파일. 자동 감지는 일반적으로 매우 안정적이지만 때때로
알파벳 유형이 모호할 수 있고 자동 감지가 실패할 수 있습니다(예: 작은 장난감
단지 몇 개의 잔기의 정렬). 이를 방지하거나 자동화된 시스템의 견고성을 높이려면
분석 파이프라인의 알파벳 유형을 지정할 수 있습니다. msa파일 이러한 옵션으로.
--아미노
다음의 모든 시퀀스를 지정합니다. msa파일 단백질입니다.
--DNA 다음의 모든 시퀀스를 지정합니다. msa파일 DNA입니다.
--rna 다음의 모든 시퀀스를 지정합니다. msa파일 RNA입니다.
옵션 제어 윤곽 건설
이러한 옵션은 정렬에서 합의 열이 정의되는 방식을 제어합니다.
--빠른 분수 >=가 있는 것으로 합의 열을 정의합니다. 대칭 다음과 같은 잔류 물의
공백에 반대합니다. (아래 참조 --symfrac 옵션입니다.) 이것이 기본값입니다.
--손 다중에 대한 참조 주석을 사용하여 다음 프로필의 합의 열 정의
조정. 이를 통해 원하는 합의 열을 정의할 수 있습니다.
--symfrac
컨센서스 열을 정의하는 데 필요한 잔류 분율 임계값을 정의합니다.
를 사용하여 --빠른 옵션. 기본값은 0.5입니다. 각 열의 기호 분수는
상대적 시퀀스 가중치를 고려하고 간격을 무시한 후 계산
시퀀스 조각의 끝에 해당하는 문자(내부
삽입/삭제). 이것을 0.0으로 설정하면 모든 정렬 열이
경우에 따라 유용할 수 있는 합의로 지정됩니다. 1.0으로 설정
0 간격(내부 삽입/삭제)을 포함하는 열만
합의로 지정됩니다.
--fragthresh
정렬된 시퀀스가 알려진 경우에만 터미널 간격을 삭제로 계산하려고 합니다.
단편이 아닌 전체 길이여야 합니다(예: 단편의 일부만
시퀀싱했다). HMMER는 조각을 추론하기 위해 간단한 규칙을 사용합니다.
정렬의 시퀀스(첫 번째와 정렬 열 사이의 정렬 열 수)
시퀀스의 마지막 위치)가 분수보다 작거나 같습니다. 시간을
열의 정렬 길이인 경우 시퀀스는 조각으로 처리됩니다. 그만큼
기본값은 0.5입니다. 환경 --fragthresh0 (비어 있지 않은) 시퀀스를
파편; 주의 깊게 선별된
전장 서열의 정렬. 환경 --fragthresh1 모두를 정의합니다
단편으로서의 서열; 정렬이
metagenomic에서 번역된 짧은 읽기와 같은 단편으로 완전히 구성됨
샷건 데이터.
옵션 제어 상대적인 무게
HMMER는 애드혹 시퀀스 가중 알고리즘을 사용하여 밀접하게 관련된 시퀀스의 가중치를 줄입니다.
그리고 멀리 관련있는 사람들을 업 웨이트합니다. 이것은 모델이 덜 편향되게 만드는 효과가 있습니다.
고르지 않은 계통 발생적 표현. 예를 들어 두 개의 동일한 시퀀스는 일반적으로
각각은 한 시퀀스가 받는 가중치의 절반을 받습니다. 이 옵션은
알고리즘이 사용됩니다.
--wpb Henikoff 위치 기반 시퀀스 가중치 체계 사용[Henikoff 및 Henikoff,
J. 몰. 바이올. 243:574, 1994]. 이것이 기본값입니다.
--wgsc Gerstein/Sonnhammer/Chothia 가중치 알고리즘을 사용합니다[Gerstein et al, J. Mol.
바이올. 235:1067, 1994].
--wblosum
BLOSUM 계산 시 데이터에 가중치를 부여하는 데 사용된 것과 동일한 클러스터링 체계를 사용합니다.
치환 행렬 [Henikoff and Henikoff, Proc. 내셔널 아카드. Sci 89:10915, 1992].
시퀀스는 ID 임계값(기본값 0.62, 참조
--와이드) 및 c 시퀀스의 각 클러스터 내에서 각 시퀀스는 상대적 가중치를 얻습니다.
1/c.
--없음
상대 가중치가 없습니다. 모든 시퀀스에는 균일한 가중치가 할당됩니다.
--와이드
다음을 사용할 때 단일 연결 클러스터링에서 사용하는 ID 임계값을 설정합니다. --wblosum.
다른 가중치 체계에서는 유효하지 않습니다. 기본값은 0.62입니다.
옵션 제어 유효한 순차 NUMBER
상대 가중치가 결정된 후 총 유효 가중치로 합산되도록 정규화됩니다.
시퀀스 번호, eff_nseq. 이 숫자는 실제 시퀀스 수일 수 있습니다.
정렬하지만 거의 항상 그보다 작습니다. 기본 엔트로피 가중치
방법 (--엔트) 정보 내용을 줄이기 위해 유효 시퀀스 번호를 줄입니다.
(상대 엔트로피, 또는 실제 상동체에 대한 평균 예상 점수) 합의 위치당. NS
목표 상대 엔트로피는 두 매개변수 함수에 의해 제어됩니다.
매개변수는 다음으로 설정할 수 있습니다. --오히려 및 --에시그마.
--엔트 특정 상대 엔트로피를 달성하기 위해 유효 시퀀스 번호를 조정합니다.
위치(참조 --오히려). 이것이 기본값입니다.
--ecluster
유효 시퀀스 번호를 단일 연결 클러스터의 수로 설정합니다.
특정 ID 임계값(참조 --이드). 이 옵션은 권장되지 않습니다. 그것은
얼마나 더 나은지 평가하는 실험 --엔트 이다.
--에논
유효한 시퀀스 번호 결정을 끄고 실제 번호를 사용하십시오.
시퀀스. 이렇게 하려는 한 가지 이유는 상대
짧은 모델에 유용할 수 있는 모델의 엔트로피/위치.
--에셋
모든 모델의 유효 시퀀스 번호를 다음으로 명시적으로 설정합니다. .
--오히려
최소 상대 엔트로피/위치 목표를 다음으로 설정합니다. . 필요 --엔트. 기본
시퀀스 알파벳에 따라 다릅니다. 단백질 서열의 경우 0.59비트/위치입니다.
뉴클레오티드 서열의 경우 0.45비트/위치입니다.
--에시그마
전체 모델 정렬에 의해 기여되는 최소 상대 엔트로피를 설정합니다.
그것의 전체 길이. 이것은 짧은 모델이 더 높은 상대 값을 갖도록 하는 효과가 있습니다.
위치당 엔트로피 --오히려 혼자 줄 것입니다. 기본값은 45.0비트입니다.
--이드
단일 링키지 클러스터링에서 사용하는 부분 쌍별 ID 컷오프를 다음과 같이 설정합니다.
전에, --ecluster 옵션. 기본값은 0.62입니다.
옵션 제어 이전
기본적으로 가중 카운트는 평균 사후 확률 매개변수로 변환됩니다.
혼합 Dirichlet 사전을 사용하여 추정합니다. 에 대한 기본 혼합 Dirichlet 사전 매개변수
단백질 모델과 핵산(RNA 및 DNA) 모델이 내장되어 있습니다. 다음
옵션을 사용하면 기본 사전을 재정의할 수 있습니다.
--pnone
사전을 사용하지 마십시오. 확률 매개변수는 단순히 관찰됩니다.
상대적 시퀀스 가중 후 주파수.
--플레이스
기본 혼합물 Dirichlet 사전 대신 Laplace +1 사전을 사용하십시오.
옵션 제어 전자 가치 구경 측정
MSV 필터 점수에 대한 예상 점수 분포의 위치 매개변수,
Viterbi 필터 점수 및 Forward 점수에는 XNUMX개의 짧은 임의 시퀀스 시뮬레이션이 필요합니다.
--EML
위치 매개변수 mu를 추정하는 시뮬레이션에서 시퀀스 길이를 설정합니다.
MSV 필터 E-값. 기본값은 200입니다.
--엠엔
위치 매개변수 mu를 추정하는 시뮬레이션의 시퀀스 수를 설정합니다.
MSV 필터 E-값의 경우. 기본값은 200입니다.
--레벨
위치 매개변수 mu를 추정하는 시뮬레이션에서 시퀀스 길이를 설정합니다.
비터비 필터 E-값. 기본값은 200입니다.
--EvN
위치 매개변수 mu를 추정하는 시뮬레이션의 시퀀스 수를 설정합니다.
Viterbi 필터 E-값의 경우. 기본값은 200입니다.
--EfL
위치 매개변수 tau를 추정하는 시뮬레이션에서 시퀀스 길이를 설정합니다.
정방향 E-값의 경우. 기본값은 100입니다.
--EfN
위치 매개변수를 추정하는 시뮬레이션의 시퀀스 수를 설정합니다.
순방향 E-값의 경우 tau. 기본값은 200입니다.
--Eft
위치를 추정하는 시뮬레이션에 맞게 꼬리 질량 분율을 설정합니다.
순방향 e값에 대한 매개변수 tau. 기본값은 0.04입니다.
기타 옵션
--cpu
병렬 작업자 스레드 수를 다음으로 설정하십시오. . 기본적으로 HMMER는 이것을 다음으로 설정합니다.
컴퓨터에서 감지하는 CPU 코어 수 - 즉, 최대화하려고 시도합니다.
사용 가능한 프로세서 코어의 사용. 환경 의 수보다 높은
사용 가능한 코어는 가치가 거의 없지만 무언가로 설정하고 싶을 수 있습니다.
더 적은. 환경 변수를 설정하여 이 숫자를 제어할 수도 있습니다.
HMMER_NCPU.
이 옵션은 HMMER가 POSIX 스레드 지원으로 컴파일된 경우에만 사용할 수 있습니다.
이것이 기본값이지만 귀하의 사이트 또는 시스템에 대해 다음 기간 동안 꺼져 있을 수 있습니다.
몇몇 이유.
--정보
입력이라고 선언 msa파일 형식에 있습니다 . 현재 허용되는 배수
정렬 시퀀스 파일 형식에는 Stockholm, Aligned FASTA, Clustal, NCBI가 포함됩니다.
PSI-BLAST, PHYLIP, Selex 및 UCSC SAM A2M. 기본값은 형식을 자동 감지하는 것입니다.
파일.
--씨앗
난수 생성기 시드 , 정수 >= 0. 만약 XNUMX이 아닌 임의
확률적 시뮬레이션을 재현할 수 있습니다. 같은 명령은 같은 것을 줄 것입니다
결과. 만약에 0이면 난수 생성기가 임의로 시드되고
확률적 시뮬레이션은 동일한 명령을 실행할 때마다 다릅니다. 기본값
씨앗은 42입니다.
--w_베타
창 길이 꼬리 질량. 상한, W, nhmmer가 기대하는 길이
모델의 인스턴스를 찾는 것은 모든 시퀀스의 일부가 되도록 설정됩니다.
길이가 있는 모델에 의해 생성됨 >= W ~보다 작다. . 기본값은 1e-7입니다.
--w_길이
모델 인스턴스 길이 상한을 재정의합니다. W, 그렇지 않으면 에 의해 제어됩니다.
--w_베타. 모델 길이보다 커야 합니다. 의 가치 W 깊이 사용
가속화 파이프라인에 있으며 약간의 변화가 결과에 영향을 미치지 않을 것으로 예상됩니다.
(더 큰 값이지만 W 더 긴 실행 시간으로 이어집니다).
--mpi 병렬 MPI 프로그램으로 실행합니다. 각 정렬은 다음을 위해 MPI 작업자 노드에 할당됩니다.
건설. (따라서 최대 병렬화는 최대 병렬화 수를 초과할 수 없습니다.
입력의 정렬 msa파일.) 대형 프로파일을 구축할 때 유용합니다.
도서관. 이 옵션은 선택적 MPI 기능이 활성화된 경우에만 사용할 수 있습니다.
컴파일 타임.
--마구간
MPI 병렬화 디버깅을 위해: 직후에 프로그램 실행을 정지합니다.
시작하고 디버거가 실행 중인 프로세스에 연결하고 릴리스할 때까지 기다립니다.
체포.
--maxinsertlen
예상 삽입 길이가
모델의 각 위치는 .
onworks.net 서비스를 사용하여 hmmbuild 온라인 사용