Это команда mmorph, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
mmorph - инструмент морфологии MULTEXT
СИНТАКСИС
информация:
мморф [ -вх ]
только синтаксический анализ:
мморф -y | -z [ -a добавить файл ]
-m морфофайл [ -d debug_map ] [ -l журнальный файл ] [ вводить [ Outfile ]]
генерировать:
мморф -c | -n [ -t уровень трассировки ] [ -s уровень трассировки ] [ -a добавить файл ]
-m морфофайл [ -d debug_map ] [ -l журнальный файл ] [ вводить [ Outfile ]]
простой поиск:
мморф [ -фи ] [ -b | -k ] [ -r файл отклонения ]
-m морфофайл [ -d debug_map ] [ -l журнальный файл ] [ вводить [ Outfile ]]
поиск записи / поля:
мморф -C классов [ -фу ] [ -E | -O ] [ -b | [ -k ] [ -B класс ]]
-m морфофайл [ -d debug_map ] [ -l журнальный файл ] [ вводить [ Outfile ]]
дамп базы данных:
мморф -п | -q
-m морфофайл [ -d debug_map ] [ -l журнальный файл ] [ вводить [ Outfile ]]
ОПИСАНИЕ
В простейшем режиме работы только с -m морфофайл вариант, мморф работает в
режим поиска: он откроет существующую базу данных с именем морффайл.db и поискать все
строковые сегменты (обычно соответствующие словам) во входных данных.
Чтобы создать базу данных из лексических записей, указанных в "morphfile", используйте -c -m
морфофайл. Файл морфофайл.db не должно существовать. Когда база данных будет завершена, она будет
искать сегменты во входных данных. При неэффективном использовании (вход и выход - это терминал)
Приглашение печатается, когда программа ожидает, что пользователь наберет строку сегмента. Нет
запрос происходит в режиме записи / поля.
Чтобы протестировать приложения правил на лексических записях, указанных в морфофайл, без
создавая базу данных и не просматривая сегменты, используйте -n -m морфофайл. Это
автоматически устанавливает уровень трассировки на 1, если он не был указан.
Чтобы выполнить те же операции, что и выше, но с альтернативным набором лексических статей
in добавить файл, используйте дополнительную опцию -a добавить файл. Лексические записи в morphfile будут
игнорируется. Это полезно при внесении дополнений в стандартное морфологическое описание.
Имейте в виду, что записи, добавленные в базу данных морффайл.db не заменяйте существующие.
Как в тестXNUMX a морфологический описание
Использовать -n вариант. В разделе Грамматика укажите правила целей, которые будут соответствовать желаемому
полученные результаты. В разделе «Лексикон» укажите лексические элементы, которые вы хотите протестировать. При беге
все правила будут применяться (рекурсивно) к лексическим элементам, если правило является целью, то
результат приложения печатается на выходе.
Предложение: Поместите две упомянутые выше части (правила целей и раздел словаря) в отдельные
файлы и ссылаться на эти файлы с помощью #включают директива, где они должны встречаться в
основной входной файл.
Если вы используете существующее описание и хотите протестировать только новые лексические записи, используйте
варианты -n -a добавить файл, и поместите лексические записи в добавить файл.
ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ, НЕ ВКЛЮЧЕННЫЕ В ПАКЕТ
-a добавить файл
Игнорировать лексические записи в morphfile, брать их из добавить файл .
-B класс
Задает класс записи перед началом предложения.
Слова с заглавной буквы, встречающиеся сразу после таких записей, также будут просматриваться со всеми
их буквы преобразованы в нижний регистр (согласно LC_CTYPE, см. ниже).
-b сложите чехол перед поиском. Заглавные буквы преобразуются в строчные.
(согласно LC_CTYPE, см. ниже) перед поиском слова.
-C классов
Определяет режим записи / поля. Определяет классы записей, которые следует искать
вверх. Имена классов должны быть разделены запятой ",", TAB, пробелом, чертой "|" или обратная косая черта
"\".
-c Создайте новую базу данных для поиска. Имя созданного файла - это имя
морфофайл (-m вариант) с суффиксом .db. Этого не должно быть; если он существует, пользователь
следует удалить его вручную перед запуском мморф -c (это минимальная защита
от случайной перезаписи базы данных, которая могла занять много времени
Создайте).
-d debug_map
Укажите, какие параметры отладки требуются. Каждый бит в debug_map соответствует
опцию.
бит десятичное шестнадцатеричное назначение
без битов 0 0x0 без опции отладки (по умолчанию)
1 1 0x1 инициализация отладки
2 2 0x2 отладка yacc parsing
3 4 0x4 комбинация правил отладки
4 8 0x8 отладка орфографического приложения
5 16 0x10 статистики печати с параметрами -p или -q
все биты -1 0xffff все параметры отладки, какими бы они ни были
Чтобы объединить параметры, сложите десятичные или шестнадцатеричные значения. Пример: -t 0x5
указывает биты (опции) 1 и 4.
-E В режиме записи / поля расширяет аннотации морфологии, если они уже существуют (
по умолчанию существующие аннотации остаются без изменений).
-O В режиме записи / поля перезаписать аннотации морфологии, если они уже существуют.
(по умолчанию существующие аннотации остаются без изменений).
-f Сбрасывать вывод после каждого поиска сегмента. Это полезно, только если ввод и вывод
передаются по конвейеру из программы, которая должна синхронизировать их.
-h Распечатать справку и выйти.
-i Добавьте к результату каждого поиска идентификатор входного сегмента.
соответствует. Текущие входные сегменты идентифицируются по их порядковому номеру,
начиная с 0. При этом указании дополнительная строка новой строки, разделяющая решения
для разных входных сегментов не печатается, потому что в этом нет необходимости. Если поиск
не имеет решений, на выходе печатается только идентификатор сегмента. Сегмент
идентификатор также добавляется к отклоненным сегментам. Вкладка всегда следует за
идентификатор сегмента.
-k запасной футляр. Если поиск слова завершился неудачно, преобразуйте все прописные буквы в
строчные буквы и повторите поиск. (преобразование выполняется в соответствии с LC_CTYPE, см.
ниже).
-l журнальный файл
Укажите файл для записи сообщений трассировки и ошибок. По умолчанию используется стандартная ошибка.
-m морфофайл
Укажите файл, содержащий описание морфологии. Видеть мморф (5) для
описание синтаксиса формализма.
-n Без создания базы данных или поиска (тестовый режим).
-p Выгрузите базу данных типизированной структуры объектов в файл вывода (или стандартный вывод). В
количество различных tfs указывается в файле журнала (или стандартная ошибка), если бит 5 отладки
опция установлена.
-q Выгрузите формы из базы данных в файл вывода (или стандартный вывод). Немного статистики
заносятся в файл журнала (или стандартная ошибка), если установлен бит 5 параметра отладки.
-r файл отклонения
В режиме без записи / поля указывает файл, в который следует записывать входные сегменты, которые
не мог быть найден. По умолчанию используется стандартная ошибка.
-s уровень трассировки
Применение правила проверки орфографии:
0 без трассировки (по умолчанию).
1 проследить действительные формы поверхности.
2 правила трассировки, лексическая часть которых совпадает.
3 трассировка левого контекста поверхности (построение поверхностного слова).
4 отслеживайте несоответствие правого контекста поверхности и блокировку правил.
5 правило трассировки неблокирующее.
Уровень трассировки подразумевает все предыдущие.
-t уровень трассировки
Укажите уровень трассировки для применения правила:
0 без трассировки (по умолчанию).
1 применимые правила трассировки цели.
2 проследите все применяемые правила, отступ указывает глубину рекурсии.
10 отслеживайте также правила, которые были опробованы, но не применялись
Уровень трассировки подразумевает все предыдущие.
-U В режиме записи / поля неизвестные слова (т. Е. Поиск по которым был безуспешен)
с пометкой ?? \ ??.
-v Версия для печати и выход.
-y Только синтаксический анализ: не обрабатывать описание, кроме проверки синтаксиса. В то время как
разрабатывая описание морфологии, вы можете использовать эту опцию для выявления синтаксических ошибок.
быстро после каждой модификации перед запуском "по-настоящему".
-z подразумевает -y. Разобрать и вывести лексические описания в нормализованном виде.
вводить файл, содержащий сегменты для поиска, по одному в каждой строке. По умолчанию стандарт
вход.
Outfile
файл, в котором записан вывод программы. Одна строка на решение.
Решения разных входных сегментов разделяются пустой строкой. По умолчанию
стандартный вывод.
СЛОВО ГРАММАТИКА И SPELLING ПРАВИЛА
Подробное описание принципов и механизмов, используемых в мморф пожалуйста, обратитесь к
документы, указанные в разделе СМОТРИ ТАКЖЕ ниже.
Кратко наброски, морфосинтаксические описания, написанные для mmorph, описывают, как слова
построенный конкатенацией морфем, и как этот процесс конкатенации изменяется
написание этих морфем. Уточняется первая часть, грамматика структуры слова.
ограниченными контекстно-свободными правилами перезаписи, формализм которых вдохновлен унификацией, основанной
систем (см. Shieber 1986). Вторая часть, орфографические изменения, определяется
орфографические правила в формализме, основанном на двухуровневой модели морфологии. Этот подход
морфологии описана у Ritchie, Russell et. al, 1992 и более кратко в Pulman
и Хеппл 1993.
ОКРУЖАЮЩАЯ СРЕДА ПЕРЕМЕННЫЕ
Чтобы решить, какие символы будут отображаться на выходе, мморф использует язык
конкретное описание, которое установить локаль(3) устанавливается в соответствии с переменной окружения
LC_CTYPE. Для языков, которые используются в MULTEXT, рекомендуется
переменная установлена в iso_8859_1.
ПРИМЕРЫ
Вот краткое изложение общего использования параметров mmorph:
мморф -n -m морфофайл
Тестовый режим: читает весь морф-файл и распечатывает результаты при стандартной ошибке. Нет базы данных
создается, слова не подбираются.
мморф -c -m морфофайл
Создание базы данных: читает весь морф-файл и сохраняет результаты в базе данных
(morphfile.db). Типизированные структуры объектов собраны в отдельном файле.
(morphfile.tfs). Стандартный ввод читается для слов для поиска в новой базе данных.
мморф -m морфофайл
Режим поиска: читает только разделы «Алфавиты», «Атрибуты» и «Типы» морфофайла.
Стандартный ввод читается для слов для поиска в соответствии с существующей базой данных
(mmorphfile.db и morphfile.tfs).
мморф -m морфофайл -a добавить файл
Режим добавления: игнорирует раздел морф файла Lexicon, но обращается к addfile, и
результаты добавляются в базу данных. Стандартный ввод читается для поиска слов
согласно дополненной базе данных (mmorphfile.db и morphfile.tfs).
ДИАГНОСТИКИ
Сообщения об ошибках должны быть понятными. Пожалуйста, обратитесь к мморф(5) для формального
описание синтаксиса.
Используйте mmorph онлайн с помощью сервисов onworks.net