이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 명령 ids2ngram입니다.
프로그램:
이름
ids2ngram - ids 파일에서 n-gram 데이터 파일 생성
개요
ids2ngram [선택권] ... 아이디_파일...
기술
ids2ngram 바이너리에서 정렬된 [id1,..,idN,freq] 배열인 idngram 파일을 생성합니다.
id 스트림 파일. 여기서 id 스트림 파일은 항상 다음에 의해 생성됩니다. mmseg or 슬램세그.
기본적으로 n-단어 튜플(즉, (id1,..,idN)의 튜플)의 모든 발생을 찾고,
튜플을 구성하는 id의 사전순으로 이 튜플을 정렬한 다음 다음을 작성합니다.
지정된 출력 파일로 전송합니다.
입력
입력 파일은 다음과 같은 바이너리 ID 스트림으로 표시됩니다.
[id0,...,idX]
옵션
다음 옵션은 모두 필수입니다.
-n,--NMax N
생성 N-그램 결과. ids2ngram 유니그램, 바이그램, 트라이그램만 지원합니다.
따라서 1..3 범위에 없는 숫자는 유효하지 않습니다.
-s,--교환 스왑 파일
임시 중간 파일을 지정하십시오.
-o, --밖 결과물 파일
결과 idngram 파일을 지정하십시오(예: [id1, ..., idN, freq] 배열).
-p, --파라 N
단락당 최대 n-gram 항목을 지정합니다. ids2ngram 임시 파일에 씁니다.
단락별로. 단락을 작성할 때마다
해당 메모리에 할당됩니다. 컴퓨터 시스템이 허용하는 경우 더 높은 N
제안된다. 이것은 더 적은 I/O로 인해 처리 속도를 높일 수 있습니다.
예
다음 예에서는 1,2,3개의 입력 idstream 파일 idsfile[XNUMX]을 사용하여
idngram 파일 all.id3gram. 각 파라(내부 맵 크기 또는 해시 크기)는 1024000,
임시 결과를 위해 스왑 파일을 사용합니다. 모든 임시 파라 결과는 결국 병합되어
최종 결과.
ids2ngram -n 3 -s /tmp/스왑 -o all.id3gram -p 1024000 아이디 파일1 아이디 파일2 아이디 파일3
onworks.net 서비스를 사용하여 온라인으로 ids2ngram 사용