영어프랑스어스페인어

Ad


온웍스 파비콘

hmmsim - 클라우드의 온라인

Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터를 통해 OnWorks 무료 호스팅 공급자에서 hmmsim 실행

Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 hmmsim 명령입니다.

프로그램:

이름


hmmsim - 무작위 시퀀스에 대한 점수 분포 수집

개요


흠심 [옵션]

기술


XNUMXD덴탈의 흠심 프로그램은 임의의 시퀀스를 생성하고 모델로 점수를 매깁니다. ,
결과에 대한 다양한 종류의 히스토그램, 플롯 및 적합 분포를 출력합니다.
점수.

흠심 HMMER 패키지의 주류 부분이 아닙니다. 대부분의 사용자는 그럴 이유가 없습니다.
그걸 써. P 값을 결정하는 데 사용되는 통계 방법을 개발하고 테스트하는 데 사용됩니다.
및 HMMER3의 E-값. 예를 들어, 2008년에 대부분의 결과를 생성하는 데 사용되었습니다.
H3의 로컬 정렬 통계에 관한 논문(PLoS Comp Bio 4:e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

연구용 테스트베드이기 때문에 다른 제품만큼 견고할 것이라고 기대해서는 안 됩니다.
패키지의 프로그램. 예를 들어 옵션은 이상한 방식으로 상호 작용할 수 있습니다. 우리는하지 않았다
가능한 모든 조합을 테스트하거나 예상하려고 시도하지 않았습니다.

주요 작업은 Gumbel 최대 우도 분포를 Viterbi 점수 또는
높은 점수의 포워드 점수에 대한 최대 우도 지수 꼬리, 그리고 이것이
적합 분포는 Viterbi Gumbel 둘 다에 대해 lambda ~ log_2라는 추측을 따릅니다.
순방향 지수 꼬리.

출력은 각 모델에 대해 한 행인 숫자 테이블입니다. 네 가지 파라메트릭 맞춤
(1) 위치(mu/tau) 및
기울기(람다) 매개변수; (2) lambda=log_2라고 가정하면 최대 우도는
위치 매개변수만; (3) 동일하지만 에지 보정 람다를 가정하고 현재 사용
H3 절차[Eddy, 2008]; 및 (4) H3의 전류에 의해 결정된 두 매개변수 사용
절차. 적합도에 대한 표준 간단하고 빠르며 지저분한 통계는 'E@10'입니다.
계산된 10위 탑히트의 E-value, 약 10이 될 것으로 예상합니다.

세부적으로 출력 열은 다음과 같습니다.

name 모델명.

테일프 분포를 맞추는 데 사용되는 최고 점수의 일부입니다. Viterbi, MSV 및
하이브리드 점수, 기본값은 1.0입니다(Gumbel 분포는 모든
데이터). Forward 점수의 경우 기본값은 0.02입니다(지수 꼬리는
최고 2% 점수).

뮤/타우 데이터에 맞는 최대 우도에 대한 위치 매개변수입니다.

람다 데이터에 맞는 최대 우도에 대한 기울기 매개변수입니다.

E@10 ML mu/tau를 사용하여 10위 높은 점수('E@10')에 대해 계산된 E-값
그리고 람다. 정의에 따르면 E-값 추정이
정확한.

멀티픽스 알려진(고정된) 기울기가 있는 최대 우도 적합을 위한 위치 매개변수
log_2의 파라미터 람다(0.693).

E@10fix
mufix를 사용하여 10위 점수에 대해 계산한 E-값과 예상
람다 = log_2 = 0.693.

mufix2 에지 효과가 보정된 최대 우도 적합을 위한 위치 매개변수
람다.

E@10fix2
mufix10와 edge-effect-
수정된 람다.

푸무 H3의 추정 절차에 의해 결정된 위치 매개변수.

플람다
H3의 추정 절차에 의해 결정된 경사 매개변수.

pE@10 pmu, plambda를 사용하여 10위 점수에 대해 계산한 E-값입니다.

이 표 끝에는 #으로 시작하여 다음을 요약하는 한 줄이 더 인쇄됩니다.
시뮬레이션에 사용된 전체 CPU 시간.

선택적 출력 파일 중 일부는 xmgrace xy 형식입니다. xmgrace는 강력하고 자유롭게
사용 가능한 그래프 플로팅 소프트웨어.

기타 사항 옵션


-h 돕다; 명령줄 사용 및 사용 가능한 모든 옵션에 대한 간략한 알림을 인쇄합니다.

-a 각 시뮬레이션 시퀀스에서 예상 Viterbi 정렬 길이 통계를 수집합니다.
이것은 Viterbi 점수에서만 작동합니다(기본값; 참조). --vit). 추가 XNUMX개
필드는 각 모델의 출력 테이블에 인쇄됩니다. Viterbi의 평균 길이
정렬 및 표준 편차.

-v (말 수가 많은). 점수도 한 줄에 하나씩 인쇄하십시오.

-L 임의로 샘플링된(비동종) 시퀀스의 길이를 다음으로 설정합니다. . 그만큼
기본값은 100입니다.

-N 무작위로 샘플링된 시퀀스의 수를 다음으로 설정합니다. . 기본값은 1000입니다.

--mpi 아래에서 MPI 병렬 모드로 실행 음피룬. 전송 수준에서 병렬화됩니다.
MPI 작업자 프로세스에 대해 한 번에 하나의 프로파일이므로 병렬화는 다음 경우에만 도움이 됩니다.
에 프로필이 두 개 이상 있습니다. , 그리고 당신은 적어도
MPI 작업자 프로세스로 많은 프로필. (옵션 MPI 지원이
컴파일 타임에 활성화됩니다.)

옵션 제어 출력


-o 기본 출력 테이블을 파일에 저장 stdout으로 보내는 대신.

--파일
Viterbi 정렬 통계를 수집할 때( -a 옵션), 각 샘플링에 대해
시퀀스, 한 줄에 두 개의 필드를 파일로 출력 : 최적의 길이
정렬 및 Viterbi 비트 점수. 다음을 요구합니다. -a 옵션도 사용됩니다.

--efile
XMGRACE xy 형식의 순위 대 E-값 플롯을 파일로 출력 . x축은
가장 높은 점수에서 가장 낮은 점수로 이 시퀀스의 순위; y축은 E-값입니다.
이 시퀀스에 대해 계산됩니다. E-값은 H3의 기본 절차를 사용하여 계산됩니다.
(즉, 출력 테이블의 pmu, plambda 매개변수). 당신은 거친 경기를 기대
E-값이 정확하게 추정되는 경우 순위와 E-값 사이.

--파일
"필터 전원" 파일을 다음으로 출력 : 각 모델에 대해 세 개의 필드가 있는 행:
모델 이름, P-값 임계값을 통과하는 시퀀스 수 및
P-값 임계값을 통과하는 시퀀스. 보다 --pthresh P-값 설정
기본값은 0.02(H3의 기본 MSV 필터 임계값)입니다. P-
값은 H3의 기본 절차에 의해 결정됩니다(pmu,plambda 매개변수는
출력 테이블). 모두 정상이면 필터 전력이
임계값의 예측 P-값 설정.

--p파일
누적 생존 플롯(P(S>x))을 파일로 출력 XMGRACE xy 형식으로. 거기
(1) 관찰된 점수 분포; (2) 최대 우도
적합분포; (3) 위치 매개변수에 맞는 최대 우도
(뮤/타우) 동안
lambda=log_2라고 가정합니다.

--xfile
비트 점수를 배정밀도 부동 소수점의 이진 배열로 출력합니다(당 8바이트).
점수)를 파일로 . 이젤과 같은 프로그램 esl-histplot 이러한 바이너리 파일을 읽을 수 있습니다.
이는 매우 큰 샘플 크기를 생성할 때 유용합니다.

옵션 제어 모델 구성 (방법)


H3은 멀티히트 로컬 정렬만 사용합니다( --fs 모드), 이것이 우리가 믿는 곳입니다.
통계적 적합. Unihit 로컬 정렬 점수(Smith/Waterman; --sw 모드) 또한 우리의
통계적 추측. 글로컬 정렬 통계(멀티히트 또는 유니히트)는
여전히 충분히 이해되지도, 적절하게 적합하지도 않습니다.

--fs 멀티히트 로컬 정렬 점수를 수집합니다. 이것이 기본값입니다. 다음과 같이 정렬
'단편 검색 모드'.

--sw 유니히트 로컬 정렬 점수를 수집합니다. H3 J 상태는 비활성화됩니다. 다음과 같이 정렬
'스미스/워터맨 검색 모드'.

--ls 멀티히트 글로컬 정렬 점수를 수집합니다. 글로컬(글로벌/로컬) 정렬에서
전체 모델은 대상의 하위 시퀀스에 정렬되어야 합니다. H3 로컬 진입/출구
전환 확률이 비활성화됩니다. 'ls'는 HMMER2의 역사적
'로컬 검색 모드'로 멀티히트 로컬 정렬을 위한 용어.

--NS 유니히트 글로컬 정렬 점수를 수집합니다. H3 J 상태 및 로컬 진입/출구 모두
전환 확률이 비활성화됩니다. 's'는 HMMER2의 역사적
유니히트 글로컬 정렬에 대한 용어.

옵션 제어 점수 연산


--vit Viterbi 최대 우도 정렬 점수를 수집합니다. 이것이 기본값입니다.

--fwd 정렬 앙상블에 대해 합산된 순방향 로그 확률 우도 점수를 수집합니다.

--hyb Yu와 Hwa의 논문에 설명된 대로 '하이브리드' 점수를 수집합니다(예:
Bioinformatics 18:864, 2002). 여기에는 순방향 행렬을 계산하고 다음을 취하는 것이 포함됩니다.
최대 셀 값. 숫자 자체는 통계적으로 다소 동기가 없습니다.
그러나 분포는 선의의 극단값 분포일 것으로 예상됩니다.
(검벨).

--msv H3의 메인을 사용하여 MSV(multiple ungapped segment Viterbi) 점수 수집
가속 휴리스틱.

--빠른 위의 옵션에 대해 H3의 최적화된 생산 구현을 사용하십시오(사용
SIMD 벡터화). 기본값은 구현에서 약간의 희생을 사용하는 것입니다.
숫자 정밀도의 양. 이로 인해 혼란스러운 노이즈가 발생할 수 있습니다.
통계적 시뮬레이션 및 적합성
세부적으로는 노이즈의 원인을 제거할 수 있는 것이 좋습니다.

옵션 제어 적합 꼬리 대중 위한 앞으로


일부 실험에서는 Forward 점수를 다양한 꼬리 범위에 맞추는 것이 유용했습니다.
하나가 아닌 대량. 이러한 옵션은 균일하게 맞추는 메커니즘을 제공합니다.
다른 꼬리 질량의 간격 범위. 각기 다른 꼬리 질량에 대해 선이 생성됩니다.
출력에서.

--tmin
꼬리 질량 분포의 하한을 설정합니다. (기본값은 0.02입니다.
기본 단일 꼬리 질량.)

--tmax
꼬리 질량 분포의 상한을 설정합니다. (기본값은 0.02입니다.
기본 단일 꼬리 질량.)

--t포인트
에서 시작하여 샘플링할 꼬리 질량의 수를 설정합니다. --tmin 그리고 끝 --tmax.
(기본값은 1이며 기본 0.02 단일 테일 질량입니다.)

--tlinear
균일한 선형 간격으로 꼬리 질량 범위를 샘플링합니다. 기본값은 사용하는 것입니다.
균일한 대수 간격.

옵션 제어 H3 매개 변수 추정 방법


H3는 XNUMX개의 짧은 랜덤 시퀀스 시뮬레이션을 사용하여 위치 매개변수를 추정합니다.
MSV 점수, Viterbi 점수 및 Forward 점수에 대한 예상 점수 분포. 이것들
옵션을 사용하면 이러한 시뮬레이션을 수정할 수 있습니다.

--EML
위치 매개변수 mu를 추정하는 시뮬레이션에서 시퀀스 길이를 설정합니다.
MSV E-값. 기본값은 200입니다.

--엠엔
위치 매개변수 mu를 추정하는 시뮬레이션의 시퀀스 수를 설정합니다.
MSV E-값의 경우. 기본값은 200입니다.

--레벨
위치 매개변수 mu를 추정하는 시뮬레이션에서 시퀀스 길이를 설정합니다.
Viterbi E-가치. 기본값은 200입니다.

--EvN
위치 매개변수 mu를 추정하는 시뮬레이션의 시퀀스 수를 설정합니다.
Viterbi E-값을 위해. 기본값은 200입니다.

--EfL
위치 매개변수 tau를 추정하는 시뮬레이션에서 시퀀스 길이를 설정합니다.
정방향 E-값의 경우. 기본값은 100입니다.

--EfN
위치 매개변수를 추정하는 시뮬레이션의 시퀀스 수를 설정합니다.
순방향 E-값의 경우 tau. 기본값은 200입니다.

--Eft
위치를 추정하는 시뮬레이션에 맞게 꼬리 질량 분율을 설정합니다.
순방향 e값에 대한 매개변수 tau. 기본값은 0.04입니다.

디버깅 옵션


--마구간
MPI 마스터/작업자 버전 디버깅: 시작 후 일시 중지, 활성화하려면
개발자가 실행 중인 마스터 및 작업자 프로세스에 디버거를 연결합니다. 보내다
일시 중지를 해제하는 SIGCONT 신호. (gdb에서: (GDB) 신호 시그콘트) (오직
컴파일 타임에 선택적 MPI 지원이 활성화된 경우 사용할 수 있습니다.)

--씨앗
난수 시드를 다음으로 설정 . 기본값은 0이며 임의의 숫자를 생성합니다.
생성기는 임의의 시드를 사용하므로 흠심 거의
확실히 다른 통계 샘플을 생성합니다. 디버깅에 유용합니다.
난수 시드를 고정하여 재현 가능한 결과를 강제합니다.

실험적 옵션


이러한 옵션은 소규모의 다양한 탐색 실험에 사용되었습니다.

--bgplat
배경 잔류물 분포를 균일한 분포로 설정합니다.
점수 계산 및 생성에 사용되는 null 모델의 목적
무작위 시퀀스. 기본값은 표준 아미노산 배경 빈도를 사용하는 것입니다.
유통.

--bgcomp
배경 잔류물 분포를 프로필의 평균 조성으로 설정합니다.
이것은 편향된 구성의 일부 효과를 탐색하는 데 사용되었습니다.

--x-길이 없음 모델
H3 대상 시퀀스 길이 모델을 끕니다. N,C,J에 대한 자체 전환 설정
대신 null 모델을 350/351로 설정합니다. 이것은 HMMER2를 에뮬레이트합니다. 좋은 생각이 아닙니다
일반적인. 이것은 주요 H2 대 H3 차이점 중 하나를 설명하는 데 사용되었습니다.

--누
MSV 알고리즘에 대한 nu 매개변수를 설정합니다.
표적 서열 당 정렬. 기본값은 2.0이며 E->J에 해당합니다.
전환 확률은 0.5입니다. 이것은 다양한 nu가 있는지 여부를 테스트하는 데 사용되었습니다.
결과에 상당한 영향을 미칩니다(합리적인 범위 내에서 그렇게 보이지 않음). 이 옵션만
작동하는 경우 --msv 선택되어 있고(MSV에만 영향을 미침) 작동하지 않습니다. --빠른
(최적화된 구현은 nu=2.0으로 가정하도록 고정 배선되어 있기 때문입니다).

--pthresh
다음을 사용하여 필터 전력 파일을 생성하는 데 사용할 필터 P-값 임계값을 설정합니다.
--파일. 기본값은 0.02입니다(MSV 점수 테스트에 적합,
이것은 H3 가속 파이프라인의 기본 MSV 필터 임계값이기 때문입니다.)
다른 적절한 선택(가속 파이프라인에서 일치하는 기본값)은 다음과 같습니다.
Viterbi는 0.001, Forward는 1e-5입니다.

onworks.net 서비스를 사용하여 hmmsim 온라인 사용


무료 서버 및 워크스테이션

Windows 및 Linux 앱 다운로드

Linux 명령

Ad