Це команда ids2ngram, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS
ПРОГРАМА:
ІМ'Я
ids2ngram - генерувати файл даних n-gram з файлу ids
СИНТАКСИС
ids2ngram [варіант]... ids_file...
ОПИС
ids2ngram генерує файл idngram, який є відсортованим масивом [id1,..,idN,freq] із двійкового
файли потоку id. Тут файли потоку id завжди генеруються за допомогою mmseg or slmseg.
По суті, він знаходить всі входження кортежів з n слів (тобто кортеж (id1,..,idN)), і
сортує ці кортежи за лексикографічним порядком ідентифікаторів, які складають кортежі, а потім записує
їх у вказаний вихідний файл.
ВХІД
Вхідний файл представлений у вигляді бінарного потоку ідентифікаторів, який виглядає так:
[id0,...,idX]
ВАРІАНТИ
Усі наступні параметри є обов’язковими.
-n,--NМакс N
Породжує N-результат грам. ids2ngram підтримує лише уніграми, біграми та триграми,
тому будь-яке число за межами 1..3 недійсне.
-s,--помінятися файл підкачки
Вкажіть тимчасовий проміжний файл.
-o, -- вихід вихідний файл
Вкажіть результат файлу idngram, наприклад, масив [id1, ..., idN, freq]
-p, --параграф N
Вкажіть максимальну кількість елементів n-грам на абзац. ids2ngram записує в тимчасовий файл
за абзацами. Кожен раз, коли він записує абзац, він звільняє
відповідну пам'ять, виділену для нього. Коли ваша комп’ютерна система дозволяє, вище N
пропонується. Це може прискорити швидкість обробки через меншу кількість вводу-виводу.
приклад
Наступний приклад використовуватиме три вхідних файлу idstream idsfile[1,2,3] для створення
idngram файл all.id3gram. Кожен параметр (розмір внутрішньої карти або розмір хеша) буде 1024000,
використання файлу підкачки для тимчасового результату. Усі результати temp para зрештою будуть об’єднані в отриманий
кінцевий результат.
ids2ngram -n 3 -s /tmp/swap -o all.id3gram -p 1024000 idsfile1 idsfile2 idsfile3
Використовуйте ids2ngram онлайн за допомогою служб onworks.net