Questo è il comando ids2ngram che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
ids2ngram - genera un file di dati n-gram dal file ids
SINOSSI
ids2ngramma [opzione] ... ids_file...
DESCRIZIONE
ids2ngram genera un file idngram, che è un array ordinato [id1,..,idN,freq], da binario
file di flusso di identificazione. Qui, i file di flusso id sono sempre generati da mmseg or slmeg.
Fondamentalmente, trova tutte le occorrenze di tuple di n parole (cioè la tupla di (id1,..,idN)), e
ordina queste tuple in base all'ordine lessicografico degli id compongono le tuple, quindi scrivi
li al file di output specificato.
INGRESSO
Il file di input viene presentato come un flusso di ID binario, che assomiglia a:
[id0,...,idX]
VERSIONI
Tutte le seguenti opzioni sono obbligatorie.
-n,--NMax N
genera N-grammo risultato. ids2ngram supporta solo uni-gram, bi-gram e trigram,
quindi qualsiasi numero non compreso nell'intervallo 1..3 non è valido.
-s,--scambio file di scambio
Specificare il file intermedio temporaneo.
-o, --fuori file di uscita
Specificare il file idngram del risultato, ad esempio l'array di [id1, ..., idN, freq]
-p, --parà N
Specificare il numero massimo di elementi di n-grammi per paragrafo. ids2ngram scrive nel file temporaneo
per paragrafo. Ogni volta che scrive un paragrafo, libera il
memoria corrispondente allocata per esso. Quando il tuo sistema informatico lo consente, un livello superiore N
è suggerito. Ciò può accelerare la velocità di elaborazione a causa di un minor numero di I/O.
ESEMPIO
L'esempio seguente utilizzerà tre file idstream di input idsfile[1,2,3] per generare il
file idngram all.id3gram. Ogni para (dimensione della mappa interna o dimensione dell'hash) sarebbe 1024000,
utilizzando il file di scambio per il risultato temporaneo. Tutti i risultati del para temporaneo verrebbero eventualmente uniti in got
il risultato finale.
ids2ngram -n 3 -s /tmp/scambia -o all.id3gram -p 1024000 idsfile1 idsfile2 idsfile3
Usa ids2ngram online utilizzando i servizi onworks.net