Jest to polecenie mmseg, które można uruchomić w darmowym dostawcy usług hostingowych OnWorks przy użyciu jednej z wielu naszych bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online MAC OS
PROGRAM:
IMIĘ
mmseg - maksymalny pasujący segment chińskiego tekstu.
STRESZCZENIE
mmseg -d plik_dykt [opcja]... [plik_korpusu] ...
OPIS
mmseg to narzędzie do segmentacji chińskiego tekstu na słowa przy użyciu algorytmu maksymalnego dopasowania.
mmseg Segmenty plik_korpusulub standardowe wejście, jeśli nie podano nazwy pliku, i wpisz
segmentowany wynik na standardowe wyjście.
OPCJE
-d plik_dykt
Zastosowanie plik_dykt jako leksykon. Domyślny leksykon można znaleźć pod adresem
/usr/share/sunpinyin-slm/dict.utf8.
-f,--format (XNUMX|kosz)
Format wyjściowy, może to być „text” lub „bin”. domyślny „kosz”. Zwykle w trybie tekstowym słowo
tekst jest wyprowadzany, podczas gdy w trybie binarnym, binarna krótka liczba całkowita identyfikatorów słów
napisane na standardowe wyjście.
-s, --stok STOK_ID
Identyfikator tokenu zdania. Domyślnie 10. Zostanie zapisane na wyjście w trybie binarnym po
każde zdanie.
-i, --show-id
Pokaż informacje o identyfikatorze. W trybie formatu wyjściowego tekstu dołącz identyfikator po znanych słowach. Jeśli pod
tryb binarny, drukuj identyfikatory w tekście.
-a, --identyfikator-niejednoznaczny ID AMBI
Niejednoznaczne środki ABC => A BC or AB C. Jeśli określono (ID AMBI != 0), Sekwencja ABC
nie będą segmentowane, w trybie binarnym ID AMBI jest wypisany; w trybie tekstowym,
" ABC " zostanie wydrukowane. Wartość domyślna to 0.
UWAGI
Pod dwójkowy trybie, kolejne id 0 są łączone w jedno 0. Under XNUMX tryb, brak miejsca
są wstawiane między nieznane słowa.
Korzystaj z mmseg online, korzystając z usług onworks.net