Questo è il comando mmseg che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
mmseg - segmento di corrispondenza massimo Testo cinese.
SINOSSI
mmseg -d dict_file [opzione]... [corpus_file] ...
DESCRIZIONE
mmseg è uno strumento per segmentare il testo cinese in parole utilizzando l'algoritmo di corrispondenza massima.
mmseg segmenti corpus_file, o input standard se non è specificato alcun nome di file, e scrivi il
risultato segmentato allo standard output.
VERSIONI
-d dict_file
Usa il dict_file come lessico. Un lessico predefinito può essere trovato su
/usr/share/sunpinyin-slm/dict.utf8.
-f,--formato (testo|bidone)
Formato di output, può essere 'testo' o 'bin'. 'contenitore' predefinito. Normalmente, in modalità testo, parola
il testo viene emesso, mentre in modalità binaria, gli interi binari brevi degli ID di parola sono
scritto su stdout.
-s, --stok STOK_ID
ID token frase. Predefinito 10. Verrà scritto sull'output in modalità binaria dopo
ogni frase.
-i, --mostra-id
Mostra informazioni sull'ID. In modalità formato di output di testo, allega l'id dopo le parole conosciute. Se sotto
modalità binaria, stampa gli ID nel testo.
-a, --id-ambiguo ID AMBI
Mezzi ambigui ABC => A BC or AB C. Se specificato (ID AMBI != 0), La sequenza ABC
non sarà segmentato, in modalità binaria, il ID AMBI è scritto; in modalità testo,
" ABC " verrà emesso. Il valore predefinito è 0.
NOTE
Sotto binario modalità, l'id consecutivo di 0 viene unito in uno 0. Sotto testo modalità, nessuno spazio
sono inseriti tra le parole sconosciute.
Usa mmseg online utilizzando i servizi onworks.net