EnglischFranzösischSpanisch

Ad


OnWorks-Favicon

ids2ngram – Online in der Cloud

Führen Sie ids2ngram beim kostenlosen Hosting-Anbieter OnWorks über Ubuntu Online, Fedora Online, den Windows-Online-Emulator oder den MAC OS-Online-Emulator aus

Dies ist der Befehl ids2ngram, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


ids2ngram – generiert eine N-Gramm-Datendatei aus der ID-Datei

ZUSAMMENFASSUNG


ids2ngram [zu erhalten] ... ids_file...

BESCHREIBUNG


ids2ngram Erzeugt eine IDNgram-Datei, bei der es sich um ein sortiertes [id1,..,idN,freq]-Array aus Binärdateien handelt
ID-Stream-Dateien. Hier werden die ID-Stream-Dateien immer von generiert mmseg or slmseg.
Im Grunde findet es alle Vorkommen von n-Wörter-Tupeln (dh das Tupel von (id1,..,idN)) und
Sortiert diese Tupel nach der lexikografischen Reihenfolge der IDs, aus denen die Tupel bestehen, und schreibt dann
sie in die angegebene Ausgabedatei.

SPEISUNG


Die Eingabedatei wird als binärer ID-Stream dargestellt, der wie folgt aussieht:
[id0,...,idX]

OPTIONAL


Alle folgenden Optionen sind obligatorisch.

-n,--NMax N
erzeugt N-Gramm-Ergebnis. ids2ngram unterstützt nur Uni-Gramm, Bi-Gramm und Trigramm,
Daher ist jede Zahl, die nicht im Bereich von 1 bis 3 liegt, ungültig.

-s,--Tauschen Auslagerungsdatei
Geben Sie die temporäre Zwischendatei an.

-o, --aus Ausgabedatei
Geben Sie die Ergebnis-IDNgram-Datei an, z. B. das Array von [id1, ..., idN, freq]

-p, --Absatz N
Geben Sie die maximale Anzahl an N-Gramm-Elementen pro Absatz an. ids2ngram schreibt in die temporäre Datei
auf einer Pro-Absatz-Basis. Jedes Mal, wenn ein Absatz ausgeschrieben wird, wird der freigegeben
der entsprechende dafür zugewiesene Speicher. Wenn Ihr Computersystem dies zulässt, eine höhere N
wird vorgeschlagen. Dadurch kann die Verarbeitungsgeschwindigkeit aufgrund weniger E/A beschleunigt werden.

BEISPIEL


Im folgenden Beispiel werden die drei Eingabe-IDStream-Dateien idsfile[1,2,3] zum Generieren verwendet
idngram-Datei all.id3gram. Jeder Para (interne Kartengröße oder Hash-Größe) wäre 1024000,
Verwendung der Auslagerungsdatei für temporäres Ergebnis. Alle temporären Para-Ergebnisse würden schließlich zu got zusammengeführt
das Endergebnis.

ids2ngram -n 3 -s /tmp/swap -o all.id3gram -p 1024000 idsfile1 idsfile2 idsfile3

Nutzen Sie ids2ngram online über die Dienste von onworks.net


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad