Dies ist der Befehl ids2ngram, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
ids2ngram – generiert eine N-Gramm-Datendatei aus der ID-Datei
ZUSAMMENFASSUNG
ids2ngram [zu erhalten] ... ids_file...
BESCHREIBUNG
ids2ngram Erzeugt eine IDNgram-Datei, bei der es sich um ein sortiertes [id1,..,idN,freq]-Array aus Binärdateien handelt
ID-Stream-Dateien. Hier werden die ID-Stream-Dateien immer von generiert mmseg or slmseg.
Im Grunde findet es alle Vorkommen von n-Wörter-Tupeln (dh das Tupel von (id1,..,idN)) und
Sortiert diese Tupel nach der lexikografischen Reihenfolge der IDs, aus denen die Tupel bestehen, und schreibt dann
sie in die angegebene Ausgabedatei.
SPEISUNG
Die Eingabedatei wird als binärer ID-Stream dargestellt, der wie folgt aussieht:
[id0,...,idX]
OPTIONAL
Alle folgenden Optionen sind obligatorisch.
-n,--NMax N
erzeugt N-Gramm-Ergebnis. ids2ngram unterstützt nur Uni-Gramm, Bi-Gramm und Trigramm,
Daher ist jede Zahl, die nicht im Bereich von 1 bis 3 liegt, ungültig.
-s,--Tauschen Auslagerungsdatei
Geben Sie die temporäre Zwischendatei an.
-o, --aus Ausgabedatei
Geben Sie die Ergebnis-IDNgram-Datei an, z. B. das Array von [id1, ..., idN, freq]
-p, --Absatz N
Geben Sie die maximale Anzahl an N-Gramm-Elementen pro Absatz an. ids2ngram schreibt in die temporäre Datei
auf einer Pro-Absatz-Basis. Jedes Mal, wenn ein Absatz ausgeschrieben wird, wird der freigegeben
der entsprechende dafür zugewiesene Speicher. Wenn Ihr Computersystem dies zulässt, eine höhere N
wird vorgeschlagen. Dadurch kann die Verarbeitungsgeschwindigkeit aufgrund weniger E/A beschleunigt werden.
BEISPIEL
Im folgenden Beispiel werden die drei Eingabe-IDStream-Dateien idsfile[1,2,3] zum Generieren verwendet
idngram-Datei all.id3gram. Jeder Para (interne Kartengröße oder Hash-Größe) wäre 1024000,
Verwendung der Auslagerungsdatei für temporäres Ergebnis. Alle temporären Para-Ergebnisse würden schließlich zu got zusammengeführt
das Endergebnis.
ids2ngram -n 3 -s /tmp/swap -o all.id3gram -p 1024000 idsfile1 idsfile2 idsfile3
Nutzen Sie ids2ngram online über die Dienste von onworks.net