Це команда mmseg, яку можна запустити в безкоштовному хостинг-провайдері OnWorks за допомогою однієї з наших безкоштовних онлайн-робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS
ПРОГРАМА:
ІМ'Я
mmseg - максимальний відповідний сегмент китайського тексту.
СИНТАКСИС
mmseg -d dict_file [варіант]... [corpus_file]...
ОПИС
mmseg це інструмент для сегментації китайського тексту на слова за допомогою алгоритму максимальної відповідності.
mmseg сегменти corpus_fileабо стандартний ввід, якщо ім’я файлу не вказано, і напишіть
сегментований результат у стандартний вихід.
ВАРІАНТИ
-d dict_file
Скористайтесь dict_file як лексикон. Стандартний лексикон можна знайти за адресою
/usr/share/sunpinyin-slm/dict.utf8.
-f,--формат (текст|Бен)
Формат виводу, може бути «текст» або «bin». за замовчуванням 'bin'. Зазвичай у текстовому режимі слово
виводиться текст, тоді як у двійковому режимі виводиться двійкове коротке ціле число ідентифікаторів слів
записується в стандартний вихід.
-s, --сток STOK_ID
Ідентифікатор маркера речення. За замовчуванням 10. Після цього буде записано для виведення у двійковому режимі
кожне речення.
-i, --show-id
Показати інформацію про ідентифікатор. У режимі формату виведення тексту додайте ідентифікатор після відомих слів. Якщо під
двійковий режим, друкувати ідентифікатор(и) у тексті.
-a, --ambiguious-id AMBI-ID
Двозначні засоби азбука => A BC or AB C. Якщо вказано (AMBI-ID != 0), послідовність азбука
не буде сегментовано в двійковому режимі AMBI-ID виписується; в текстовому режимі,
" ABC " буде виведено. За замовчуванням 0.
ПРИМІТКИ
під двійковий режимі послідовні ідентифікатори 0 об’єднуються в один 0. Під текст режим, немає місця
вставляються між невідомими словами.
Використовуйте mmseg онлайн за допомогою сервісів onworks.net