Angielskifrancuskihiszpański

Ad


Ulubiona usługa OnWorks

ids2ngram - Online w chmurze

Uruchom ids2ngram w bezpłatnym dostawcy hostingu OnWorks w systemie Ubuntu Online, Fedora Online, emulatorze online systemu Windows lub emulatorze online systemu MAC OS

Jest to polecenie ids2ngram, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS

PROGRAM:

IMIĘ


ids2ngram - wygeneruj n-gramowy plik danych z pliku id

STRESZCZENIE


ids2ngram [opcja] ... plik_id...

OPIS


ids2ngram generuje plik idngram, który jest posortowaną tablicą [id1,..,idN,freq] z binarnego
id strumieniowe pliki. Tutaj pliki strumienia id są zawsze generowane przez mmseg or slmseg.
Zasadniczo znajduje wszystkie wystąpienia krotek n-słów (tj. krotkę (id1,..,idN)) i
sortuje te krotki według porządku leksykograficznego identyfikatorów, tworzy krotki, a następnie pisze
je do określonego pliku wyjściowego.

WEJŚCIE


Plik wejściowy jest prezentowany jako binarny strumień identyfikatora, który wygląda następująco:
[id0,...,idX]

OPCJE


Wszystkie poniższe opcje są obowiązkowe.

-n,--NMaks. N
Generuje N-gramowy wynik. ids2ngram obsługuje tylko uni-gram, bi-gram i trigram,
więc każda liczba spoza zakresu 1..3 jest nieprawidłowa.

-s,--zamieniać Zamień plik
Określ tymczasowy plik pośredni.

-o, --na zewnątrz plik wyjściowy
Określ wynikowy plik idngram, np. tablicę [id1, ..., idN, freq]

-p, -- ust N
Określ maksymalną liczbę n-gramów na akapit. ids2ngram zapisuje do pliku tymczasowego
według akapitu. Za każdym razem, gdy zapisuje akapit, uwalnia plik
przydzieloną dla niego odpowiednią pamięć. Jeśli system komputerowy na to pozwala, wyższa N
jest sugerowane. Może to przyspieszyć prędkość przetwarzania ze względu na mniejszą liczbę operacji we/wy.

PRZYKŁAD


Poniższy przykład użyje trzech wejściowych plików idstream idsfile[1,2,3] do wygenerowania
plik idngram all.id3gram. Każdy para (rozmiar mapy wewnętrznej lub rozmiar skrótu) miałby wartość 1024000,
używając pliku wymiany dla wyniku tymczasowego. Wszystkie wyniki temp para zostaną ostatecznie połączone w got
Wynik końcowy.

ids2ngram -n 3 -s /tmp/zamień -o all.id3gram -p 1024000 plik id1 plik id2 plik id3

Użyj ids2ngram online, korzystając z usług onworks.net


Darmowe serwery i stacje robocze

Pobierz aplikacje Windows i Linux

Komendy systemu Linux

Ad