InglésFrancésEspañol

Ad


icono de página de OnWorks

ids2ngram: en línea en la nube

Ejecute ids2ngram en el proveedor de alojamiento gratuito de OnWorks sobre Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando ids2ngram que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


ids2ngram: genera un archivo de datos n-gram a partir del archivo ids

SINOPSIS


ids2ngrama [opción] ... archivo_ids...

DESCRIPCIÓN


ids2ngrama genera un archivo idngram, que es una matriz ordenada [id1, .., idN, freq], desde binario
archivos de secuencia de identificación. Aquí, los archivos de flujo de ID siempre son generados por mmseg or slmseg.
Básicamente, encuentra todas las ocurrencias de tuplas de n palabras (es decir, la tupla de (id1, .., idN)) y
ordena estas tuplas por el orden lexicográfico de los identificadores que componen las tuplas, luego escribe
ellos al archivo de salida especificado.

ENTRADA


El archivo de entrada se presenta como una secuencia de identificación binaria, que se ve así:
[id0, ..., idX]

CAMPUS


Todas las siguientes opciones son obligatorias.

-n,--Nmáx N
genera N-resultado del gramo. ids2ngrama solo admite uni-gramo, bi-gramo y trigrama,
por lo que cualquier número que no esté en el rango de 1..3 no es válido.

-s,--intercambio archivo de intercambio
Especifique el archivo intermedio temporal.

-o, --fuera archivo de salida
Especifique el archivo idngram de resultado, por ejemplo, la matriz de [id1, ..., idN, freq]

-p, --paraca N
Especifique el número máximo de elementos de n-gramas por párrafo. ids2ngrama escribe en el archivo temporal
por párrafo. Cada vez que escribe un párrafo, libera el
la memoria correspondiente asignada para ello. Cuando su sistema informático lo permite, un mayor N
es sugerido. Esto puede acelerar la velocidad de procesamiento debido a menos E / S.

EJEMPLO


El siguiente ejemplo utilizará tres archivos idstream de entrada idsfile [1,2,3] para generar el
archivo idngram all.id3gram. Cada para (tamaño de mapa interno o tamaño de hash) sería 1024000,
usando el archivo de intercambio para el resultado temporal. Todos los resultados de temp para eventualmente se fusionarían para obtener
el resultado final.

ids2ngrama -n 3 -s / tmp / swap -o todo.id3gram -p 1024000 archivo ids1 archivo ids2 archivo ids3

Use ids2ngram en línea usando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

Comandos de Linux

Ad