Il s'agit de la commande mmseg qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
mmseg - segment de correspondance maximum du texte chinois.
SYNOPSIS
mmseg -d fichier_dict [option]... [fichier_corps] ...
DESCRIPTION
mmseg est un outil pour segmenter le texte chinois en mots à l'aide d'un algorithme de correspondance maximale.
mmseg segments fichier_corps, ou entrée standard si aucun nom de fichier n'est spécifié, et écrivez le
résultat segmenté à la sortie standard.
OPTIONS
-d fichier_dict
Utilisez fichier_dict comme lexique. Un lexique par défaut peut être trouvé à
/usr/share/sunpinyin-slm/dict.utf8.
-f,--format (texte|coffre)
Format de sortie, peut être « texte » ou « bin ». « poubelle » par défaut. Normalement, en mode texte, word
texte sont affichés, tandis qu'en mode binaire, les entiers courts binaires des identifiants de mots sont
écrit sur stdout.
-s, --stock STOK_ID
Identifiant du jeton de phrase. Par défaut 10. Il sera écrit en sortie en mode binaire après
chaque phrase.
-i, --show-id
Afficher les informations d'identification. En mode de format de sortie de texte, attachez l'identifiant après les mots connus. Si sous
mode binaire, imprimez les identifiants dans le texte.
-a, --identifiant-ambiguï ID AMBI
Des moyens ambigus abc => A BC or AB C. Si spécifié (ID AMBI != 0), la séquence abc
ne sera pas segmenté, en mode binaire, le ID AMBI est écrit; en mode texte,
" abc " sera affiché. La valeur par défaut est 0.
NOTES
Sous binaire mode, les identifiants consécutifs de 0 sont fusionnés en un seul 0. Sous texte mode, pas d'espace
sont insérés entre les mots-inconnus.
Utilisez mmseg en ligne en utilisant les services onworks.net