Это команда ids2ngram, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
ids2ngram - генерирует n-граммовый файл данных из файла ids
СИНТАКСИС
ids2ngram [вариант] ... ids_file...
ОПИСАНИЕ
ids2ngram генерирует файл idngram, который представляет собой отсортированный массив [id1, .., idN, freq] из двоичного
id потоковых файлов. Здесь файлы потока id всегда генерируются ммсег or слмсег.
По сути, он находит все вхождения кортежей из n слов (т.е. кортеж из (id1, .., idN)) и
сортирует эти кортежи по лексикографическому порядку идентификаторов, составляющих кортежи, затем напишите
их в указанный выходной файл.
ВХОД
Входной файл представлен в виде потока двоичных идентификаторов, который выглядит так:
[id0, ..., idX]
ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ, НЕ ВКЛЮЧЕННЫЕ В ПАКЕТ
Все следующие параметры являются обязательными.
-n,--NМакс N
Формирует N-грамма результата. ids2ngram поддерживает только юниграммы, биграммы и триграммы,
поэтому любое число, не входящее в диапазон 1..3, недействительно.
-s,--поменять местами файл подкачки
Укажите временный промежуточный файл.
-o, --из выходной файл
Укажите файл idngram результата, например массив [id1, ..., idN, freq]
-p, - para N
Укажите максимальное количество элементов в граммах на абзац. ids2ngram записывает во временный файл
по параграфам. Каждый раз, когда он пишет абзац, он освобождает
соответствующая память, выделенная для него. Когда ваша компьютерная система позволяет, более высокое N
предлагается. Это может ускорить скорость обработки из-за меньшего количества операций ввода-вывода.
ПРИМЕР
В следующем примере будут использоваться три входных файла idstream - idsfile [1,2,3], чтобы сгенерировать
idngram файл all.id3gram. Каждый параметр (размер внутренней карты или размер хэша) будет 1024000,
используя файл подкачки для временного результата. Все результаты временного пара в конечном итоге будут объединены, чтобы получить
конечный результат.
ids2ngram -n 3 -s / tmp / своп -o все.id3gram -p 1024000 idsfile1 idsfile2 idsfile3
Используйте ids2ngram онлайн с помощью сервисов onworks.net