Aceasta este comanda ids2ngram care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS
PROGRAM:
NUME
ids2ngram - generează fișierul de date n-gram din fișierul ids
REZUMAT
ids2ngram [opțiune] ... fișier_ids...
DESCRIERE
ids2ngram generează fișierul idngram, care este o matrice sortată [id1,..,idN,freq], din binar
fișiere de flux id. Aici, fișierele de flux ID sunt întotdeauna generate de mmseg or slmseg.
Practic, găsește toate aparițiile de tuplu de n cuvinte (adică tuplu de (id1,..,idN)), și
sortează aceste tupluri după ordinea lexicografică a id-urilor care formează tuplurile, apoi scrieți
le în fișierul de ieșire specificat.
INTRARE
Fișierul de intrare este prezentat ca un flux de id binar, care arată astfel:
[id0,...,idX]
OPŢIUNI
Toate următoarele opțiuni sunt obligatorii.
-n,--NMax N
generează N-rezultat gram. ids2ngram acceptă doar uni-gramă, bi-gramă și trigramă,
deci orice număr care nu se află în intervalul 1..3 nu este valid.
-s,--schimba fişier de schimb
Specificați fișierul intermediar temporar.
-o, --afara fisier de iesire
Specificați fișierul idngram rezultat, de exemplu, matricea [id1, ..., idN, freq]
-p, --para N
Specificați elementele maxime de n grame pe paragraf. ids2ngram scrie în fișierul temporar
pe bază de paragraf. De fiecare dată când scrie un paragraf, eliberează
memoria corespunzătoare alocată acestuia. Când sistemul dvs. de computer permite, o mai mare N
este sugerat. Acest lucru poate accelera viteza de procesare din cauza I/O mai puține.
EXEMPLU
Următorul exemplu va folosi trei fișiere de intrare idstream idsfile[1,2,3] pentru a genera fișierul
fișierul idngram all.id3gram. Fiecare para (dimensiunea internă a hărții sau dimensiunea hash) ar fi 1024000,
folosind fișierul de schimb pentru rezultatul temp. Toate rezultatele temp para ar fi în cele din urmă fuzionate pentru a obține
rezultatul final.
ids2ngram -n 3 -s /tmp/swap -o toate.id3gram -p 1024000 idsfile1 idsfile2 idsfile3
Utilizați ids2ngram online folosind serviciile onworks.net