Este es el comando ids2ngram que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.
PROGRAMA:
NOMBRE
ids2ngram: genera un archivo de datos n-gram a partir del archivo ids
SINOPSIS
ids2ngrama [opción] ... archivo_ids...
DESCRIPCIÓN
ids2ngrama genera un archivo idngram, que es una matriz ordenada [id1, .., idN, freq], desde binario
archivos de secuencia de identificación. Aquí, los archivos de flujo de ID siempre son generados por mmseg or slmseg.
Básicamente, encuentra todas las ocurrencias de tuplas de n palabras (es decir, la tupla de (id1, .., idN)) y
ordena estas tuplas por el orden lexicográfico de los identificadores que componen las tuplas, luego escribe
ellos al archivo de salida especificado.
ENTRADA
El archivo de entrada se presenta como una secuencia de identificación binaria, que se ve así:
[id0, ..., idX]
CAMPUS
Todas las siguientes opciones son obligatorias.
-n,--Nmáx N
genera N-resultado del gramo. ids2ngrama solo admite uni-gramo, bi-gramo y trigrama,
por lo que cualquier número que no esté en el rango de 1..3 no es válido.
-s,--intercambio archivo de intercambio
Especifique el archivo intermedio temporal.
-o, --fuera archivo de salida
Especifique el archivo idngram de resultado, por ejemplo, la matriz de [id1, ..., idN, freq]
-p, --paraca N
Especifique el número máximo de elementos de n-gramas por párrafo. ids2ngrama escribe en el archivo temporal
por párrafo. Cada vez que escribe un párrafo, libera el
la memoria correspondiente asignada para ello. Cuando su sistema informático lo permite, un mayor N
es sugerido. Esto puede acelerar la velocidad de procesamiento debido a menos E / S.
EJEMPLO
El siguiente ejemplo utilizará tres archivos idstream de entrada idsfile [1,2,3] para generar el
archivo idngram all.id3gram. Cada para (tamaño de mapa interno o tamaño de hash) sería 1024000,
usando el archivo de intercambio para el resultado temporal. Todos los resultados de temp para eventualmente se fusionarían para obtener
el resultado final.
ids2ngrama -n 3 -s / tmp / swap -o todo.id3gram -p 1024000 archivo ids1 archivo ids2 archivo ids3
Use ids2ngram en línea usando los servicios de onworks.net