이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 제공업체에서 실행할 수 있는 명령 daligner입니다.
프로그램:
이름
daligner - 긴 읽기 정렬기
개요
얼라이너 [-vbAI][-kINT(14)] [-wINT(6)] [-hINT(35)] [-tINT] [-MINT] [-e더블(.70)]
[-lINT(1000)] [-sINT(100)] [-HINT] [-m선로]+ 제목:db|댐 대상:db|댐 ...
기술
트리밍된 시퀀스를 비교합니다. 제목 목록에 있는 항목을 차단합니다. 목표 블록
적어도 관련된 지역 정렬 검색 -l 염기쌍(기본값 1000) 이상,
평균 상관률은 다음과 같습니다. -e (기본값 70%) 발견된 지역 정렬
매 정렬의 추적 지점이 기록되는 희소 인코딩으로 출력됩니다.
-s a-read의 기본 쌍(기본값 100bp). 읽기는 두 방향 모두에서 비교됩니다.
기준을 충족하는 로컬 선형은 설명된 여러 생성된 파일 중 하나로 출력됩니다.
이하. 그만큼 -v 옵션은 각각에 대한 통계를 제공하는 자세한 보고 모드를 켭니다.
계산의 주요 단계.
옵션 -k, -h및 -w 가능한 일치 항목에 대한 초기 필터링 검색 제어
읽기 사이. 특히, 우리의 검색 코드는 너비가 대각선인 한 쌍의 밴드를 찾습니다.
정확히 일치하는 k-mer 모음(기본값 2)을 포함하는 2^w(기본값 6^64 = 14)
두 읽기 사이에서 k-mer 적중으로 처리된 염기의 총 개수는 h입니다.
(기본값은 35). k는 현재 구현에서 32보다 클 수 없습니다. 만약 -b 선택권
설정되면 얼라이너 데이터에 강한 구성 편향이 있다고 가정합니다(예: >65% AT
풍부함) 그리고 조금 더 시간을 들여 다음에 따라 k-mer 크기를 동적으로 조정합니다.
구성 편향으로 인해 사용된 메르는 4^k의 유효 특이도를 갖습니다.
로 지정된 하나 이상의 간격 트랙이 있는 경우 -m 옵션을 선택한 다음
마스크가 적용되는 DB는 간격의 합집합으로 소프트 마스크됩니다.
적용되는 모든 간격 트랙, 즉 다음 중 하나의 염기를 포함하는 모든 k-mer입니다.
마스크된 간격은 일치 항목을 시드할 목적으로 무시됩니다. 간격 트랙
DBdust가 생성한 "dust" 트랙과 같은 트랙으로, 일련의 간격을 인코딩합니다.
트리밍되지 않은 DB 또는 트리밍된 DB 위에 있습니다.
변함없이 일부 k-mer는 상당히 과도하게 표현됩니다(예: 단일중합체 실행).
이러한 k-mer는 일치하는 k-mer 쌍을 너무 많이 생성하고 해결되지 않은 채 남아 있으면
daligner가 사용 가능한 물리적 메모리를 오버플로하게 만듭니다. 이를 처리하는 한 가지 방법은 다음과 같습니다.
명시적으로 설정 -t 더 많이 발생하는 k-mer의 사용을 억제하는 매개변수
보다 t 주제 또는 대상 블록의 시간입니다. 그러나 더 나은 처리 방법은
상황은 프로그램이 자동으로 다음 값을 선택하도록 하는 것입니다. t 주어진 조건을 충족하는 것
에 의해 지정된 메모리 사용량 제한(GB) -M 매개변수. 기본적으로 얼라이너 사용하게 될
물리적 메모리의 양을 선택합니다. -M. 더 적게 사용하려면 8Gb만 사용하세요.
24개를 실행하려고 하므로 3Gb HPC 클러스터 노드에서 얼라이너 노드에서 작업을 수행한 다음
지정하다 -M8. 지정 -M0 기본적으로 당신이 원하지 않는다는 것을 나타냅니다 얼라이너 자신에게
주어진 메모리 양에 맞게 k-mer 억제를 조정합니다.
각 주제, 대상 블록 쌍(예: X 및 Y)에 대해 프로그램은 다음과 같은 정렬을 보고합니다.
a-read는 X에 있고 b-read는 Y에 있으며 그 반대도 마찬가지입니다. 그러나 만약 -A 옵션은
설정("비대칭"의 경우 "A")은 a-read가 X에 있고 b-read가 있는 위치와 겹칩니다.
Y의 항목이 보고되고 X = Y인 경우 다음과 같은 중복 항목만 추가로 보고됩니다.
a-read 인덱스는 b-read 인덱스보다 작습니다. 두 경우 모두, 만약 -I 옵션이 설정되었습니다("I"
"ID"의 경우) X = Y일 때 동일한 읽기의 서로 다른 부분 사이의 겹침은
발견되어 신고되기도 합니다.
발견된 각 정렬은 -- a[ab,ae] x bo[bb,be] --로 기록됩니다. 여기서 a와 b는
겹치는 읽기의 인덱스(잘린 DB에서), o는 b-읽기가 다음과 같은지 여부를 나타냅니다.
동일하거나 반대 가닥에서 나온 것이며, [ab,ae]와 [bb,be]는 a와 bo의 간격입니다.
각각 정렬됩니다. 프로그램은 이러한 정렬 기록을 다음 이름의 파일에 저장합니다.
XY[C|N]#.las 형식입니다. 여기서 C는 b-읽기가 보완되었음을 나타내고 N은
그렇지 않음을 나타내며(두 비교가 모두 수행됨) #은 감지된 스레드입니다.
파일에 포함된 정렬 모음을 작성했습니다. 그 파일이요
XYO#.las에는 a-read가 X에서 온 스레드 #에 의해 생성된 정렬이 포함되어 있으며
b-읽기는 Y에서 O 방향으로 이루어집니다. 명령 얼라이너 -A X Y 2*NTHREAD를 생성합니다.
스레드 파일 XY?.las 및 얼라이너 X Y 4*NTHREAD 파일 XY?.las 및 YX?.las를 생성합니다.
( X=Y 이 경우 NTHREAD 파일인 XX?.las만 생성됩니다.
기본적으로, 얼라이너 더 큰 데이터베이스 읽기 간의 모든 겹침을 비교합니다.
DB가 분할될 때 설정된 최소 컷오프(일반적으로 1 또는 2Kbp)보다 높습니다. 하지만,
HGAP 어셈블리 파이프라인은 8Kbp 이상의 대규모 읽기만 수정하려고 합니다.
a-read가 큰 읽기 중 하나인 중첩만 필요합니다. 설정하여 -H
N이라고 말하면 매개변수가 변경됩니다. 얼라이너 따라서 a-read가 겹치는 부분만 보고합니다.
길이는 N 염기쌍 이상입니다.
기본 매개변수 설정은 원시 Pacbio 데이터에 적합하지만, 얼라이너 사용할 수 있습니다
수정된 읽기 또는 기타 덜 시끄러운 읽기에서 정렬을 효율적으로 찾는 데 사용됩니다. 을 위한
예를 들어, .dams에 대한 애플리케이션 매핑을 위해 다음을 실행합니다.
얼라이너 -k20 -h60 -e. 85
수정된 읽기에서는 일반적으로 다음을 실행합니다.
얼라이너 -k25 -w5 -h60 -e. 95 -s500
이 설정에서는 매우 빠릅니다.
onworks.net 서비스를 사용하여 온라인으로 daligner 사용