Dit is de opdracht mmseg die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator
PROGRAMMA:
NAAM
mmseg - maximaal overeenkomend segment Chinese tekst.
KORTE INHOUD
mmseg -d dict_bestand [optie]... [corpus_bestand] ...
PRODUCTBESCHRIJVING
mmseg is een hulpmiddel voor het segmenteren van Chinese tekst in woorden met behulp van een algoritme voor maximale matching.
mmseg segmenten corpus_bestand, of standaardinvoer als er geen bestandsnaam is opgegeven, en schrijf de
gesegmenteerd resultaat naar standaarduitvoer.
OPTIES
-d dict_bestand
Te gebruiken dict_bestand als lexicon. Een standaardlexicon is te vinden op:
/usr/share/sunpinyin-slm/dict.utf8.
-f,--formaat (tekst|bak)
Uitvoerformaat, kan 'tekst' of 'bak' zijn. standaard 'bak'. Normaal gesproken, in de tekstmodus, word
tekst worden uitgevoerd, terwijl in binaire modus, binair kort geheel getal van de woord-id's zijn
geschreven naar stdout.
-s, --stook STOK_ID
Zin token-ID. Standaard 10. Het wordt daarna in binaire modus naar uitvoer geschreven
elke zin.
-i, --show-id
ID-info weergeven. Voeg in de tekstuitvoerformaatmodus id toe na bekende woorden. als onder
binaire modus, print id('s) in tekst.
-a, --dubbelzinnig-id AMBI-ID
Dubbelzinnig betekent ABC => A BC or AB C. Indien opgegeven (AMBI-ID != 0), De reeks ABC
zal niet worden gesegmenteerd, in binaire modus, de AMBI-ID is uitgeschreven; in tekstmodus,
" abc " wordt uitgevoerd. Standaard is 0.
OPMERKINGEN
Onder binair modus, opeenvolgende id van 0 worden samengevoegd tot één 0. Under tekst modus, geen ruimte
worden ingevoegd tussen onbekende woorden.
Gebruik mmseg online met behulp van onworks.net-services