이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 mmseg 명령입니다.
프로그램:
이름
mmseg - 최대 일치 세그먼트 중국어 텍스트.
개요
mmseg -d dict_file [선택권]... [말뭉치_파일] ...
기술
mmseg 최대 일치 알고리즘을 사용하여 중국어 텍스트를 단어로 분할하는 도구입니다.
mmseg 세그먼트 말뭉치_파일, 또는 파일 이름이 지정되지 않은 경우 표준 입력
표준 출력으로 분할된 결과.
옵션
-d dict_file
dict_file 사전으로. 기본 어휘는 다음에서 찾을 수 있습니다.
/usr/share/sunpinyin-slm/dict.utf8.
-f,--체재 (본문|큰 상자)
출력 형식은 '텍스트' 또는 '빈'일 수 있습니다. 기본 '빈'. 일반적으로 텍스트 모드에서 단어
텍스트가 출력되는 반면 이진 모드에서는 word-ids의 이진 짧은 정수가
stdout에 작성되었습니다.
-s, --스토크 STOK_ID
문장 토큰 ID입니다. Default 10. 이후 바이너리 모드로 출력에 기록됩니다.
모든 문장.
-i, --쇼-ID
아이디 정보를 보여줍니다. 텍스트 출력 형식 모드에서 알려진 단어 뒤에 id를 붙입니다. 아래의 경우
바이너리 모드, ID를 텍스트로 인쇄합니다.
-a, --모호한-id AMBI ID
모호한 수단 ABC => A BC or AB C. 지정된 경우(AMBI ID != 0), 시퀀스 ABC
이진 모드에서는 분할되지 않습니다. AMBI ID 작성되었습니다. 텍스트 모드에서
" 알파벳 "가 출력됩니다. 기본값은 0입니다.
노트
$XNUMX Million 미만 진 모드에서 0의 연속된 id는 하나의 0으로 병합됩니다. 본문 모드, 공간 없음
알 수 없는 단어 사이에 삽입됩니다.
onworks.net 서비스를 사용하여 mmseg 온라인 사용