이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 제공자에서 실행할 수 있는 tigr-long-orfs 명령입니다.
프로그램:
이름
long-orfs — icm-의 확률 모델을 사용하여 게놈 파일에서 잠재적 유전자 찾기/점수 매기기
파일
개요
tigr-long-orgs [게놈 파일 옵션]
기술
프로그램 long-orfs는 시퀀스 파일(FASTA 형식)을 가져와 모든 긴 시퀀스 목록을 출력합니다.
너무 많이 겹치지 않는 "잠재적 유전자"를 포함합니다. "잠재적 유전자"란
첫 번째 시작 코돈에서 마지막의 종료 코돈까지의 orf 부분입니다.
출력의 처음 몇 줄은 프로그램의 다양한 매개변수 설정을 지정합니다.
최소 유전자 길이는 유전자로 간주되는 가장 작은 조각의 길이입니다.
길이는 시작 코돈의 첫 번째 염기부터 *앞*의 마지막 염기까지 측정됩니다.
종료 코돈. 이 값은 -g 옵션을 사용하여 프로그램을 실행할 때 지정할 수 있습니다.
기본적으로 프로그램은 이제(2003년 XNUMX월) 이것에 대한 최적 길이를 계산합니다.
"최적"은 가장 많은 수의 긴 ORF를 생성하는 값인 매개변수입니다.
따라서 훈련에 사용되는 데이터 양이 늘어납니다.
최소 중복 길이는 2개 유전자 사이의 중복되는 염기 수의 하한입니다.
이는 문제로 간주됩니다. 이보다 짧은 겹침은 무시됩니다.
최소 중복 백분율은 중복되는 베이스 수의 또 다른 하한입니다.
문제로 간주됩니다. 두 유전자 모두 이 비율보다 짧은 중복은 무시됩니다.
출력의 다음 부분은 잠재적인 유전자 목록입니다.
1열은 참조용 ID 번호입니다. XNUMX열부터 순차적으로 지정됩니다.
1에서 모든 긴 잠재 유전자까지. 중복되는 유전자가 제거되면
숫자가 발생합니다. ID 접두사는 상수 ID_PREFIX에 지정됩니다.
2열은 orf의 첫 번째 개시 코돈의 첫 번째 염기의 위치입니다. 현재
시작 코돈으로 atg와 gtg를 사용합니다. 이는 Is_Start() 함수에서 쉽게 변경할 수 있습니다.
3번째 열은 종결 코돈 *앞*에 있는 마지막 염기의 위치입니다. 종결 코돈은 taa입니다.
태그 및 tga. 역방향 판독 프레임의 orfs에 대해서는 시작 위치가 있다는 점에 유의하세요.
끝 위치보다 높습니다. ORF가 나열되는 순서는 오름차순입니다.
Max {OrfStart, End}, 즉 orf를 제외한 orf에서 가장 높은 번호가 매겨진 위치
시퀀스의 끝을 "감싸는" 것입니다.
ID 번호가 있는 두 유전자가 적어도 충분한 양만큼 겹치는 경우(다음에 의해 결정됨)
Min_Olap 및 Min_Olap_Percent )는 제거되어 출력에 나타나지 않습니다.
프로그램의 최종 출력(표준 오류 파일로 전송되므로 표시되지 않음)
출력이 파일로 리디렉션될 때) 발견된 가장 긴 orf의 길이가 됩니다.
다른 시작 및 종료 코돈 지정:
시작 및 종료 코돈의 다른 세트를 지정하려면 gene.h 파일을 수정하세요.
구체적으로 다음과 같은 기능이 있습니다.
Is_Forward_Start Is_Reverse_Start Is_Start Is_Forward_Stop Is_Reverse_Stop
Is_Stop
시작 코돈과 종료 코돈에 무엇이 사용되는지 결정하는 데 사용됩니다.
Is_Start와 Is_Stop은 간단한 문자열 비교를 통해 어떤 패턴이 사용되는지 지정합니다.
새 패턴을 추가하려면 해당 패턴에 대한 비교를 추가하기만 하면 됩니다. 패턴을 제거하려면 주석 처리하거나
해당 비교를 삭제하세요.
나머지 네 가지 함수는 비트 비교를 사용하여 시작 및 종료 패턴을 결정합니다.
각 염기에 대해 12비트, 각 염기에 대해 4비트로 구성된 XNUMX비트 패턴으로 코돈을 나타냅니다.
가능한 값은 T, G, C 또는 A입니다. 따라서 비트 패턴은 0010 0101 1100입니다.
기본 패턴 [C] [A 또는 G] [G 또는 T]를 나타냅니다. 비트 연산(& | ~)을 수행하여
비교, 모호한 읽기와 관련된 더 복잡한 패턴을 테스트할 수 있습니다.
효율적으로. 간단한 패턴은 현재 코드처럼 테스트할 수 있습니다.
예를 들어, CAT의 추가 시작 코돈을 삽입하려면 3가지 변경이 필요합니다. 1. 줄 ||
(코돈 & 0x218) == 0x218 = 0010이므로 코돈은 Is_Forward_Start에 삽입되어야 합니다.
0001 1000은 CAT를 나타냅니다. 2. 라인 || (코돈 & 0x184) == 코돈을 삽입해야 합니다.
Is_Reverse_Start는 0x184 = 0001 1000 0100이 ATG를 나타내므로 역방향입니다.
CAT의 보수. 또는 #define 상수 ATG_MASK를 사용할 수 있습니다. 3.
line || strncmp (S, "cat", 3) == 0을 Is_Start에 삽입해야 합니다.
옵션
-g n 최소 유전자 길이를 n으로 설정합니다. 기본값은 최적 값을 계산하는 것입니다.
자동으로 설정됩니다. 무엇을 해야 할지 모르는 경우 이 설정을 변경하지 마세요.
-l 게놈을 선형(원형이 아닌)으로 간주합니다. 즉, 유전자가 "감싸는" 것을 허용하지 않습니다.
게놈 끝부분의 "주변". 이 옵션은 glimmer와 long-orf 모두에서 작동합니다.
기본 동작은 게놈을 원형으로 간주하는 것입니다.
-o n 최대 겹침 길이를 n으로 설정합니다. 이보다 짧은 겹침은 허용됩니다.
(기본값은 0 bp입니다.)
-p n 최대 겹침 비율을 n%로 설정합니다. 이 비율보다 짧은 겹침은
*두* 문자열 모두 무시됩니다. (기본값은 10%)
onworks.net 서비스를 사용하여 tigr-long-orfs를 온라인으로 사용하세요