Это команда mmseg, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
mmseg - максимальный совпадающий сегмент китайского текста.
СИНТАКСИС
ммсег -d dict_file [вариант] ... [корпус_файл] ...
ОПИСАНИЕ
ммсег это инструмент для сегментации китайского текста на слова с использованием алгоритма максимального соответствия.
ммсег сегментами корпус_файл, или стандартный ввод, если имя файла не указано, и напишите
сегментированный результат для стандартного вывода.
ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ, НЕ ВКЛЮЧЕННЫЕ В ПАКЕТ
-d dict_file
Используйте dict_file как лексикон. Лексикон по умолчанию можно найти по адресу
/usr/share/sunpinyin-slm/dict.utf8.
-f,--формат (текст|бункер)
Формат вывода, может быть «текст» или «корзина». по умолчанию "корзина". Обычно в текстовом режиме слово
выводится текст, в то время как в двоичном режиме короткое двоичное целое число идентификаторов слов
написано в stdout.
-s, --сток STOK_ID
Идентификатор токена предложения. По умолчанию 10. Он будет записан на вывод в двоичном режиме после
каждое предложение.
-i, --show-id
Показать информацию об идентификаторе. В режиме формата вывода текста добавьте идентификатор после известных слов. Если под
двоичный режим, печатать идентификаторы в тексте.
-a, --ambiguious-id АМБИ-ID
Неоднозначные средства азбука => A BC or AB C. Если указано (АМБИ-ID ! = 0), последовательность азбука
не будет сегментироваться, в двоичном режиме АМБИ-ID выписан; в текстовом режиме,
" ABC "будет выведено. По умолчанию 0.
ПРИМЕЧАНИЯ
Под двоичный режиме, последовательные идентификаторы 0 объединяются в один 0. В текст режим, без пробела
вставляются между неизвестными словами.
Используйте mmseg онлайн с помощью сервисов onworks.net