이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 제공업체에서 실행할 수 있는 tigr-build-icm 명령입니다.
프로그램:
이름
tigr-glimmer — 보간된 마르코프 모델(IMM)을 생성하고 출력합니다.
개요
tigr-빌드-icm
기술
프로그램 build-icm.c는 설명된 대로 보간된 Markov 모델(IMM)을 생성하고 출력합니다.
논문 AL Delcher, D. Harmon, S. Kasif, O. White 및 SL Salzberg. 향상
Glimmer를 사용한 미생물 유전자 식별 Nucleic Acids Research, 1999, 보도 자료.
출판된 연구의 일부로 시스템을 사용하는 경우 이 문서를 참조하십시오.
명령줄에 명명된 파일에서 입력이 제공됩니다. 형식은 당 하나의 문자열이어야 합니다.
선. 각 줄에는 ID 문자열과 공백, 시퀀스 자체가 있습니다.
run-glimmer3 스크립트는 '추출'을 사용하여 올바른 형식의 입력 파일을 생성합니다.
프로그램)
IMM은 다음과 같이 구성됩니다. 주어진 컨텍스트(예: acgtta)에 대해
다음 문자의 확률 분포. 우리는 이것을 선형으로 할 것입니다
이 컨텍스트에 대해 관찰된 확률 분포와 모든
접미사, 즉 cgtta, gtta, tta, ta, a 및 비어 있습니다. 관찰된 분포란
훈련 세트에서 이러한 문자열의 발생 횟수입니다. 선형
조합은 각 컨텍스트 문자열에 대해 하나씩 확률 집합인 람다에 의해 결정됩니다.
컨텍스트 acgtta의 경우 선형 조합 계수는 다음과 같습니다.
람다(acgtta) (1 - 람다(acgtta)) x 람다(cgtta) (1 - 람다(acgtta)) x (1 - 람다
(cgtta)) x 람다(gtta) (1 - 람다(acgtta)) x (1 - 람다(cgtta)) x (1 - 람다
(gtta)) x 람다(tta) (1 - 람다(acgtta)) x (1 - 람다(cgtta)) x (1 - 람다(gtta))
x (1 - 람다(ta)) x (1 - 람다(ta)) x (1 - 람다(a))
다음과 같이 각 컨텍스트에 대한 람다 값을 계산합니다.
훈련 세트에서 >= 상수 SAMPLE_SIZE_BOUND이고 해당 컨텍스트의 람다는 다음과 같습니다.
1.0 - 그렇지 않으면 이 컨텍스트에 대한 관찰에 대해 카이제곱 테스트를 수행합니다.
한 문자 더 짧은 접미사 컨텍스트에 대해 예측된 분포입니다. 카이제곱이면
Important < 0.5, 이 컨텍스트에 대한 람다를 0.0으로 설정합니다. 그렇지 않으면 에 대한 람다를 설정합니다.
이 컨텍스트: (카이제곱 유의성) x (#개 관찰) / SAMPLE_WEIGHT
프로그램을 실행하려면:
빌드-icm 기차.모델
이것은 train.seq의 훈련 데이터를 사용하여 다음을 포함하는 train.model 파일을 생성합니다.
당신의 IMM.
onworks.net 서비스를 사용하여 tigr-build-icm 온라인 사용