Este é o comando mmseg que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
mmseg - texto chinês de segmento de correspondência máxima.
SINOPSE
mmseg -d arquivo_dict [opção] ... [arquivo_corpus] ...
DESCRIÇÃO
mmseg é uma ferramenta para segmentar texto chinês em palavras usando o algoritmo de correspondência máxima.
mmseg segmentos arquivo_corpusou entrada padrão se nenhum nome de arquivo for especificado e escreva o
resultado segmentado para saída padrão.
OPÇÕES
-d arquivo_dict
Use arquivo_dict como léxico. Um léxico padrão pode ser encontrado em
/usr/share/sunpinyin-slm/dict.utf8.
-f,--formato (texto|caixa)
Formato de saída, pode ser 'texto' ou 'bin'. 'bin' padrão. Normalmente, em modo de texto, palavra
o texto é gerado, enquanto no modo binário, o inteiro curto binário dos ids das palavras são
escrito para stdout.
-s, --stok STOK_ID
ID do token de frase. Padrão 10. Será escrito para saída em modo binário após
cada frase.
-i, --show-id
Mostrar informações de identificação. No modo de formato de saída de texto, anexe o id após as palavras conhecidas. Se sob
modo binário, imprime id (s) em texto.
-a, --ambiguous-id ID AMBI
Meios ambíguos abc => A BC or AB C. Se especificado (ID AMBI ! = 0), a sequência abc
não será segmentado, em modo binário, o ID AMBI está escrito; em modo de texto,
" abc "será exibido. O padrão é 0.
NOTAS
Debaixo binário modo, id consecutivos de 0 são mesclados em um 0. Abaixo texto modo, sem espaço
são inseridos entre palavras desconhecidas.
Use mmseg online usando serviços onworks.net