이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 제공업체에서 실행할 수 있는 gsnap 명령입니다.
프로그램:
이름
gsnap - 게놈 단문 뉴클레오티드 정렬 프로그램
개요
그스냅 [옵션...] <파스타 파일>, or 고양이 | gmap [옵션...]
옵션
입력 옵션 (해야하다 포함 -d)
-D, --dir=예배 규칙서
게놈 디렉토리. 기본값(다음에 의해 지정됨) --with-gmapdb 구성 프로그램에)
is /var/캐시/gmap
-d, --db=STRING
게놈 데이터베이스
--use-sarray=INT
속도를 높이는 접미사 배열을 사용할지 여부입니다. 허용되는 값: 0
(아니요), 1(예, GSNAP/GMAP 알고리즘과 함께, 기본값) 또는 2(예, 접미사만 사용)
배열 알고리즘). 접미사 배열은 SNP 대립 유전자에 대해 편향됩니다.
SNP 내성 정렬.
-k, --kmer=INT
게놈 데이터베이스에서 사용할 kmer 크기(허용값: 16 이하) 지정하지 않을 경우
프로그램은 게놈 데이터베이스에서 사용 가능한 가장 높은 kmer 크기를 찾습니다.
--견본 추출=INT
게놈 데이터베이스에 사용할 샘플링입니다. 지정하지 않으면 프로그램이 다음을 찾습니다.
선택된 k-mer 크기 내에서 게놈 데이터베이스에서 사용 가능한 가장 작은 샘플링 값
-q, --부분=INT/INT
모든 n 시퀀스 중 i번째 시퀀스(예: 0/100 또는 99/100)만 처리합니다(다음에 유용함).
컴퓨터 팜에 작업 배포).
--입력 버퍼 크기=INT
입력 버퍼 크기(프로그램은 효율성을 위해 한 번에 이만큼의 시퀀스를 읽습니다)
(기본값 1000)
--바코드 길이=INT
읽기 시작 시 제거할 바코드 양(기본값 0)
--정위=STRING
페어드 엔드 읽기 방향 허용되는 값: FR(fwd-rev 또는 일반 Illumina;
기본값), RF(rev-fwd, 원형 인서트의 경우) 또는 FF(fwd-fwd, 동일한 가닥)
--fastq-id-시작=INT
FASTQ 헤더의 식별자 시작 위치, 공백으로 구분(>= 1)
--fastq-id-끝=INT
FASTQ 헤더의 식별자 끝 위치, 공백으로 구분(>= 1)
예 :
@HWUSI-EAS100R:6:73:941:1973#0/1
start=1, end=1(기본값) => 식별자는 HWUSI-EAS100R:6:73:941:1973#0입니다.
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
start=1, end=1 => 식별자는 SRR001666.1 start=2, end=2 => 식별자는 SRRXNUMX 입니다.
071112_SLXA-EAS1_s_7:5:1:817:345 start=1, end=2 => 식별자는 SRR001666.1입니다.
071112_SLXA-EAS1_s_7:5:1:817:345
--force-싱글엔드
여러 개의 FASTQ 파일이 명령줄에 제공되면 GSNAP는 해당 파일이 다음과 같다고 가정합니다.
페어링된 파일을 일치시킵니다. 이 플래그는 각 파일을 단일 끝으로 처리합니다.
--필터 순결=STRING
Illumina 순결 프로그램으로 표시된 읽기를 건너뜁니다. 다음에 문자열이 예상됩니다.
다음과 같이 첫 번째 콜론 뒤에 'Y'가 있는 가입:
@가입 1:Y:0:CTTGTA
여기서 'Y'는 순결을 기준으로 필터링하는 것을 의미합니다. 값: off(기본값), 둘 중 하나
둘 다. 'either'의 경우 페어드 엔드 읽기의 양쪽 끝에 있는 'Y'가 필터링됩니다.
'both'의 경우 페어드 엔드 읽기의 양쪽 끝에(또는 유일한 끝에) 'Y'가 필요합니다.
단일 엔드 읽기의 경우).
--allow-pe-이름-불일치
페어드 엔드 파일에서 읽기 액세스 이름이 일치하지 않도록 허용합니다.
--건집
gzip으로 압축된 입력 파일 압축 풀기
--bunzip2
bzip2로 압축된 입력 파일 압축 해제
계산 옵션
참고: GSNAP에는 최대 및 최대 불일치를 계산하는 초고속 알고리즘이 있습니다.
...을 포함하여
((readlength+2)/kmer - 2) ("초고속 불일치"). 다음과 같은 경우 프로그램이 가장 빠르게 실행됩니다.
최대 불일치(+ 차선의 수준)가 해당 값 내에 있습니다. 또한, 인델, 특히
end indel의 경우 알고리즘은 여전히 빠르도록 설계되어 있지만 계산하는 데 시간이 더 오래 걸립니다.
-B, --일괄=INT
배치 모드(기본값 = 2)
모드 오프셋 위치 게놈 접미사 배열
0 참고 참고 mmap mmap mmap
1 mmap 참고 및 mmap mmap 사전 로드 참조
2 참고 mmap 및 미리 로드 mmap 및 미리 로드 mmap 및 미리 로드 참조
3 mmap 할당 및 mmap 사전 로드 참고 사항 참조
(기본값) 4 참고 할당 할당 mmap 및 사전 로드 참조
5 참고 사항 참조 할당 할당 할당
참고: 단일 시퀀스의 경우 모든 데이터 구조는 mmap을 사용합니다.
mmap을 사용할 수 없고 할당을 선택하지 않은 경우 fileio를 사용합니다(매우 느림).
오프셋에 대한 참고 사항: 오프셋 확장을 제어할 수 있습니다.
독립적으로 --확장 오프셋 깃발. 그러나 오프셋에 액세스됩니다.
이 버전의 GSNAP에서는 상대적으로 빠릅니다.
--공유 메모리 사용=INT
1(기본값)이면 할당된 메모리가 이 노드의 모든 프로세스에서 공유됩니다.
0이면 각 프로세스에는 개인 할당 메모리가 있습니다.
--확장 오프셋=INT
게놈 오프셋 인덱스 확장 여부 값: 0(아니요, 기본값) 또는 1(예).
확장하면 정렬 속도가 빨라지지만 더 많은 메모리가 필요합니다.
-m, --최대 불일치=흙손
허용되는 최대 불일치 수(지정되지 않은 경우 기본값은
((readlength+index_interval-1)/kmer - 2))의 초고속 수준(기본적으로
게놈 인덱스 간격은 3이지만 다른 값을 제공하여 변경할 수 있습니다.
for -q 게놈을 처리할 때 gmap_build로.)
0.0에서 1.0 사이로 지정하면 분수로 처리됩니다.
각 읽기 길이의 그렇지 않으면 불일치의 정수로 처리됩니다.
(indel 및 splicing 벌점 포함) RNA-seq의 경우 이를 늘려야 할 수도 있습니다.
엑손의 끝을 지나 확장되는 읽기를 정렬하기 위해 값을 약간 조정합니다.
--최소 적용 범위=흙손
정렬에 필요한 최소 적용 범위입니다. 0.0에서 1.0 사이로 지정하면
각 읽기 길이의 일부로 처리됩니다. 그렇지 않으면 정수로 처리됩니다.
염기쌍의 수. 기본값은 0.0입니다.
--query-unk-불일치=INT
쿼리에서 알 수 없는(N) 문자를 불일치로 계산할지 여부(0=아니요(기본값),
1=예)
--게놈-엉크-불일치=INT
게놈의 알 수 없는(N) 문자를 불일치로 계산할지 여부(0=아니요, 1=예
(기본))
--maxsearch=INT
찾을 최대 정렬 수(기본값 1000) 다음보다 커야 합니다. --npaths,
신고할 번호입니다. 이 숫자를 크게 유지하면 무작위가 허용됩니다.
여러 정렬 중에서 선택합니다. 이 숫자를 줄이면 속도가 빨라질 수 있습니다.
프로그램)
-i, --indel-페널티=INT
indel에 대한 페널티(기본값 2). 불일치에 대한 계산이 허용됩니다. 찾다
indels의 경우 indel-penalty를 최대 불일치보다 작거나 같게 만듭니다. 2 미만의 값은 가능합니다.
읽기 종료 시 잘못된 긍정이 발생함
--indel 끝 길이=INT
인델 정렬에 필요한 끝 부분의 최소 길이(기본값 4)
-y, --최대-중간-삽입=INT
허용되는 최대 중간 삽입 수(기본값 9)
-z, --최대-중간-삭제=INT 허용되는 최대 중간 삭제 수(기본값 30)
-Y, --max-end-삽입=INT
허용되는 최대 끝 삽입 수(기본값 3)
-Z, --최대 끝 삭제=INT
허용되는 최대 끝 삭제 수(기본값 6)
-M, --최적화되지 않은 수준=INT
최고 히트를 넘어서는 차선의 히트를 보고합니다(기본값 0) 최고 점수를 더한 모든 히트
최적이 아닌 수준이 보고되었습니다.
-a, --어댑터 스트립=STRING
읽기에서 어댑터를 제거하는 방법입니다. 현재 허용되는 값: off, paired.
기본값은 "끄기"입니다. 켜려면 어댑터를 제거하는 "페어링됨"을 지정하십시오.
존재하는 것처럼 보이면 쌍방향 읽기를 수행합니다.
--트림-불일치-점수=INT
끝 부분을 다듬을 때 불일치에 사용할 점수(기본값은 -3; 끄다
트리밍을 수행하려면 0을 지정하십시오). 경고: 트리밍을 끄면 거짓 긍정이 발생합니다.
읽기 끝 부분의 불일치
--trim-indel-점수=INT
끝 부분을 다듬을 때 삽입 삭제에 사용할 점수(기본값은 -2; 트리밍을 끄려면
0)을 지정합니다. 경고: 트리밍을 끄면 잘못된 양성 삽입 삭제가 발생합니다.
읽기 끝
-V, --snpsdir=STRING
SNP 색인 파일용 디렉토리(snpindex를 사용하여 생성됨)(기본값은
다음을 사용하여 지정된 게놈 인덱스 파일 -D 및 -d)
-v, --use-snps=STRING
알려진 SNP가 포함된 데이터베이스 사용( .iit, 이전에 다음을 사용하여 빌드됨
snpindex) SNP에 대한 내성
--cmetdir=STRING
메틸시토신 색인 파일용 디렉토리(cmetindex를 사용하여 생성됨)(기본값은
다음을 사용하여 지정된 게놈 색인 파일의 위치 -D, -V및 -d)
--atoidir=STRING
A-to-I RNA 편집 색인 파일용 디렉토리(atoiindex를 사용하여 생성됨)(기본값은
다음을 사용하여 지정된 게놈 색인 파일의 위치 -D, -V및 -d)
--방법=STRING
정렬 모드: 표준(기본값), cmet-stranded, cmet-nonstranded, atoi-stranded,
atoi-비연선, ttoc-연선 또는 ttoc-비연선. 비표준 모드에는 다음이 필요합니다.
이전에 cmetindex 또는 atoiindex 프로그램을 실행한 적이 있어야 합니다.
ttoc 모드) 게놈의
-t, --n스레드=INT
작업자 스레드 수
GSNAP 내 GMAP 정렬 옵션
--gmap 모드=STRING
여러 개의 스플라이스 또는 삽입 삭제가 포함된 복잡한 정렬에 GMAP을 사용하는 경우
허용되는 값: 없음, 모두, pairsearch, indel_knownsplice, 터미널, 개선
(또는 쉼표로 구분된 여러 값).
기본값: 모두, 즉, pairsearch,indel_knownsplice,terminal,improve
--gmap에 대한 트리거 점수=INT
최고 점수(양 끝의 총합)인 경우 인근 게놈 영역에서 GMAP 쌍 검색을 시도합니다.
페어드 엔드인 경우)가 이 값을 초과합니다(기본값 5).
--gmap-최소-일치-길이=INT
이만큼 연속된 일치 항목이 있는 경우에만 GMAP 적중을 유지합니다(기본값 20).
--gmap-허용=INT
GMAP 정렬에 허용되는 추가 불일치/인델 점수(기본값 3)
--max-gmap-쌍검색=INT
이만큼 많은 후보까지 근처 게놈 영역에서 GMAP 쌍 검색을 수행합니다.
끝납니다(기본값 50). 쌍 검색이 필요합니다. --gmap 모드
--max-gmap-터미널=INT
이 많은 후보 말단까지 근처 게놈 영역에서 GMAP 터미널을 수행합니다.
(기본값은 50). 터미널이 필요합니다 --gmap 모드
--max-gmap-개선=INT
이 많은 후보 끝까지 인근 게놈 영역에서 GMAP 개선을 수행합니다.
(기본값 5). 개선이 필요함 --gmap 모드
--microexon-spliceprob=흙손
스플라이스 사이트 확률 중 하나가 이보다 큰 경우에만 마이크로엑손을 허용합니다.
값(기본값 0.95)
DNA-Seq의 접합 옵션
--find-DNA-키메라=INT
DNA-Seq 데이터에서 원격 스플라이싱을 찾습니다(0=아니요(기본값), 1=예).
다음과 같은 경우 RNA-Seq 데이터에 대해 비활성화됩니다. -N or -s 지정되어 있습니다)
RNA-Seq의 접합 옵션
-N, --소설접기=INT
새로운 접합 찾기(0=아니요(기본값), 1=예)
--splicingdir=STRING
알려진 사이트 또는 알려진 인트론과 관련된 스플라이싱에 대한 디렉토리는 다음과 같이 지정됩니다.
-s or --사용-접합 플래그(기본값은 다음에서 계산된 디렉터리입니다. -D 및 -d 플래그).
참고: 전체 경로 이름을 제공할 수 있습니다. -s 대신 플래그를 지정합니다.
-s, --사용-접합=STRING
알려진 부위 또는 알려진 인트론과 관련된 스플라이싱을 찾습니다( .iit),
단거리 또는 장거리 알려진 거리와 장거리 거리를 구별하려면 README 지침을 참조하세요.
사이트 및 알려진 인트론
--ambig-접속-noclip
판독 끝 부분에서 모호하게 알려진 스플라이싱의 경우 스플라이스 사이트에서 클립하지 마십시오.
대신 인트론으로 확장됩니다. 이 플래그는 다음을 제공하는 경우에만 의미가 있습니다.
--사용-접합 플래그를 사용하여 모든 소프트 클리핑을 제거하려고 합니다.
--트림-불일치-점수=0
-w, --localsplicedist=INT
로컬 신규 접합 이벤트 정의(기본값 200000)
--novelend-splicedist=INT
읽기 끝에서 새로운 스플라이스를 찾는 거리(기본값 50000)
-e, --로컬 스플라이스 페널티=INT
로컬 스플라이스에 대한 페널티(기본값 0). 불일치에 대한 계산이 허용됨
-E, --먼-접속-페널티=INT
먼 스플라이스에 대한 페널티(기본값 1). 먼 접합은 인트론이 있는 접합입니다.
길이가 다음 값을 초과합니다. -w및 --localsplicedist또는 반전, 스크램블,
또는 두 개의 서로 다른 염색체 사이의 전위 불일치에 대한 계산
수
-K, --먼-스플라이스-끝 길이=INT
멀리 떨어진 접합 정렬에 필요한 끝 부분의 최소 길이(기본값 20, 최소)
허용되는 값은 -k또는 kmer 크기)
-l, --단축-접합-끝 길이=INT
짧은 끝 접합 정렬에 필요한 끝 부분의 최소 길이(기본값은 2이지만
알려진 스플라이스 사이트가 제공되지 않는 한 -s 플래그가 있어도 GSNAP에는 여전히
끝 길이가 값이 됩니다. -k, 또는 주어진 스플라이스를 찾기 위한 kmer 크기
--먼-스플라이스-ID=흙손
먼 접합 정렬에 필요한 끝 부분의 최소 동일성(기본값 0.95)
--좌초 방지-페널티=INT
(결과가 좋지 않아 현재는 시행하지 않음)
좌초된 RNA-Seq 프로토콜을 사용할 때 좌초 방지 스플라이싱. 양수 값,
예를 들어 1은 첫 번째 읽기에서는 안티센스를 기대하고 두 번째 읽기에서는 의미를 기대합니다.
기본값은 0입니다. 이는 센스와 안티센스를 동일하게 처리합니다.
--병합-거리-동일
가능하다면 단일 스플라이스와 동일한 염색체의 먼 스플라이스를 보고하십시오.
두 개의 SAM 라인 대신 단일 SAM 라인을 생산합니다.
전위, 반전 및 스크램블 이벤트
페어드 엔드 읽기 옵션
--pairmax-dna=INT
DNA-Seq 쌍 읽기 또는 스플라이싱 없는 기타 읽기의 최대 총 게놈 길이
(기본값은 1000). 다음과 같은 경우에 사용됩니다. -N or -s 지정되지 않았습니다.
--pairmax-rna=INT
RNA-Seq 쌍 읽기 또는 다른 읽기의 최대 총 게놈 길이
스플라이스(기본값 200000). 다음과 같은 경우에 사용됩니다. -N or -s 지정됩니다. 아마도 일치해야합니다
가치 -w, --localsplicedist.
--pairexpect=INT
페어드 엔드의 중간 부분에서 스플라이스를 호출하는 데 사용되는 예상 페어드 엔드 길이
읽습니다(기본값 200). 이전 버전에서는 꺼졌다가 다시 복구되었습니다.
--pairdev=INT
스플라이스를 호출하는 데 사용되는 예상 페어 엔드 길이에서 허용되는 편차
페어드 엔드 읽기의 중간 부분(기본값 100) 이전에 꺼졌던
버전이 복원되었지만 복원되었습니다.
품질평가점수 옵션
--품질 프로토콜=STRING
입력 품질 점수에 대한 프로토콜입니다. 허용되는 값: illumina(ASCII 64-126)
에 (동등한 -J 64 -j -31) Sanger(ASCII 33-126)(동일) -J 33 -j 0)
기본값은 Sanger입니다(품질 인쇄 변화 없음).
SAM 출력 파일은 Sanger 프로토콜의 품질 점수를 가져야 합니다.
또는 다음 플래그를 사용하여 이 동작을 맞춤설정할 수 있습니다.
-J, --품질 제로 점수=INT
FASTQ 품질 점수는 이 ASCII 값에서 33입니다(sanger의 경우 기본값은 XNUMX입니다).
규약; Illumina의 경우 64를 선택하세요.)
-j, --품질-인쇄-시프트=INT
FASTQ 품질 점수를 출력에서 이 양만큼 이동합니다(sanger의 경우 기본값은 0입니다).
규약; Illumina 입력을 Sanger 출력으로 변경하려면 다음을 선택하십시오. -31)
출력 옵션
-n, --npaths=INT
인쇄할 최대 경로 수(기본값 100)
-Q, --과도한 경우 조용함
최대 경로 수보다 많은 경로가 발견되면 아무 것도 인쇄되지 않습니다.
-O, --주문
입력과 동일한 순서로 출력 인쇄(두 명 이상의 작업자가 있는 경우에만 관련됨)
실)
--show-refdiff
SNP 허용 정렬의 GSNAP 출력의 경우 다음과 관련된 모든 차이점을 보여줍니다.
참조 게놈은 소문자로 표시됩니다(그렇지 않으면 게놈과 관련된 모든 차이점을 표시합니다).
참조 게놈과 대체 게놈 모두)
--클립 오버랩
정렬이 겹치는 쌍방향 읽기의 경우 겹치는 영역을 자릅니다.
--병합-중복
정렬이 겹치는 쌍방향 읽기의 경우 두 끝을 단일 끝으로 병합합니다.
(베타 구현)
--print-snps
읽기의 SNP에 대한 자세한 정보를 인쇄합니다. -v 도 선택됨)
(아직 완전히 구현되지는 않았습니다)
--실패만
결과가 없는 실패한 정렬만 인쇄합니다.
--nofails
실패한 정렬 인쇄 제외
-A, --체재=STRING
기본값이 아닌 다른 형식 유형입니다. 현재 구현됨: sam, m8(BLAST
표 형식)
--분할 출력=STRING
다중 파일 출력을 위한 기본 이름, nomapping에 대해 별도로, halfmapping_uniq,
halfmapping_mult, unpaired_uniq, unpaired_mult, paired_uniq, paired_mult,
concordant_uniq 및 concordant_mult 결과
-o, --결과물 파일=STRING
단일 출력 결과 스트림의 파일 이름입니다.
--실패한 입력=STRING
완전히 실패한 정렬을 입력 FASTA 또는 FASTQ 형식으로 지정된 형식으로 인쇄합니다.
페어드 엔드 데이터의 경우 .1 또는 .2를 추가하는 파일입니다. 만약 --분할 출력 플래그도
주어진 경우 이 파일은 .nomapping 파일의 출력에 추가로 생성됩니다.
--추가 출력
인셀덤 공식 판매점인 --분할 출력 or --실패한 입력 이 플래그가 주어지면 이 플래그는 출력을
기존 파일. 그렇지 않으면 기본값은 새 파일을 만드는 것입니다.
--최고 중에서 주문=STRING
가장 좋은 점수와 묶인 정렬 중에서 해당 정렬을 이 순서대로 정렬합니다.
허용되는 값: 게놈, 무작위(기본값)
--출력 버퍼 크기=INT
출력 스레드에 대한 쿼리의 버퍼 크기(기본값 1000)입니다. 수
인쇄할 결과가 이 크기를 초과하면 작업자 스레드는
백로그가 지워졌습니다
SAM 출력 옵션
--샘 헤더 없음
'@'으로 시작하는 헤더를 인쇄하지 마세요.
--추가-쌍-노매퍼
필요에 따라 nomapper 라인을 추가하여 모든 쌍으로 연결된 결과가 첫 번째 결과와 첫 번째 결과를 번갈아 표시하도록 합니다.
끝과 두 번째 끝
--쌍-플래그-수단-일치=INT
SAM 플래그의 쌍 비트가 일치만(1) 또는 쌍 플러스를 의미하는지 여부
일치(0, 기본값)
--샘-헤더-배치=INT
다음에 의해 지정된 대로 이 배치에 대해서만 헤더를 인쇄합니다. -q
--샘-사용-0M
인접한 삽입과 삭제 사이에 CIGAR에 0M을 삽입합니다. Picard에서 필요합니다.
하지만 다른 도구에서는 오류가 발생할 수 있습니다.
--sam-다중-기본
동일하게 양호한 경우 여러 정렬을 기본 정렬로 표시할 수 있습니다.
매핑 점수
--force-xs-dir
RNA-Seq 정렬의 경우 XS:A:?를 허용하지 않습니다. 감각의 방향이 불분명할 때,
이 값을 XS:A:+로 임의로 바꿉니다. 다음과 같은 일부 프로그램에 유용할 수 있습니다.
XS:A:?를 처리할 수 없는 커프스 단추로 사용됩니다. 그러나 이 플래그를 사용하면
이러한 경우 보고된 XS:A:+ 값은 의미가 없습니다.
--md-소문자-snp
MD 문자열에서 알려진 SNP가 -v 깃발, 인쇄 차이
뉴클레오티드는 참조와 다르지만 알려진 것과 일치하는 경우 소문자로 표시됩니다.
대체 대립유전자
--연장-소프트-클립
소프트 클리핑 영역을 통해 정렬 확장
--시가 오류 시 조치
CIGAR 길이와 시퀀스 길이 사이에 불일치가 있는 경우 취해야 할 조치
허용되는 값: 무시, 경고, 인쇄 안 함(기본값), 중단
--읽기 그룹 ID=STRING
읽기 그룹 ID(RG-ID) 필드에 입력할 값
--읽기-그룹-이름=STRING
읽기 그룹 이름(RG-SM) 필드에 입력할 값
--읽기 그룹 라이브러리=STRING
읽기 그룹 라이브러리(RG-LB) 필드에 입력할 값
--읽기 그룹 플랫폼=STRING
읽기 그룹 라이브러리(RG-PL) 필드에 입력할 값
도움말 옵션
--확인하다
컴파일러 가정 확인
--번역
버전 표시
--도움 이 도움말 메시지 표시
GMAP 제품군의 다른 도구는 /usr/lib/gmap에 있습니다.
onworks.net 서비스를 사용하여 온라인으로 gsnap을 사용하세요