EngelsFransSpaans

Ad


OnWorks-favicon

ids2ngram - Online in de cloud

Voer ids2ngram uit in de gratis hostingprovider van OnWorks via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is de opdracht ids2ngram die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


ids2ngram - genereer een n-gram-gegevensbestand uit het ids-bestand

KORTE INHOUD


ids2ngram [optie] ... ids_bestand...

PRODUCTBESCHRIJVING


ids2ngram genereert een idngram-bestand, een gesorteerde [id1,..,idN,freq]-array, van binair
ID-streambestanden. Hier worden de id-streambestanden altijd gegenereerd door mmseg or slmseg.
Kortom, het vindt alle voorkomende tupels van n-woorden (dat wil zeggen de tupel van (id1,..,idN)), en
sorteert deze tupels op de lexicografische volgorde van de ids waaruit de tupels bestaan, en schrijft dan
naar een gespecificeerd uitvoerbestand.

INVOER


Het invoerbestand wordt gepresenteerd als een binaire ID-stream, die er als volgt uitziet:
[id0,...,idX]

OPTIES


Alle volgende opties zijn verplicht.

-n,--NMax N
genereert N-gramresultaat. ids2ngram ondersteunt alleen unigram, biggram en trigram,
dus elk getal dat niet binnen het bereik van 1..3 ligt, is niet geldig.

-s,--ruil wisselbestand
Geef het tijdelijke tussenbestand op.

-o, --uit output-bestand
Geef het resultaat-idngrambestand op, bijvoorbeeld de array van [id1, ..., idN, freq]

-p, --para N
Geef het maximale aantal n-gramitems per alinea op. ids2ngram schrijft naar het tijdelijke bestand
per paragraaf. Elke keer dat het een paragraaf schrijft, bevrijdt het de
het overeenkomstige geheugen dat ervoor is toegewezen. Wanneer uw computersysteem dit toelaat, een hogere N
wordt gesuggereerd. Dit kan de verwerkingssnelheid verhogen vanwege minder I/O.

VOORBEELD


In het volgende voorbeeld worden drie invoer-idstream-bestanden idsfile[1,2,3] gebruikt om het
idngram-bestand all.id3gram. Elke para (interne kaartgrootte of hashgrootte) zou 1024000 zijn,
gebruik een wisselbestand voor het tijdelijke resultaat. Alle tijdelijke para-resultaten zouden uiteindelijk worden samengevoegd om te verkrijgen
het eindresultaat.

ids2ngram -n 3 -s /tmp/wissel -o all.id3gram -p 1024000 idsbestand1 idsbestand2 idsbestand3

Gebruik ids2ngram online met behulp van onworks.net-services


Gratis servers en werkstations

Windows- en Linux-apps downloaden

Linux-commando's

Ad