Il s'agit de la commande ids2ngram qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
ids2ngram - génère un fichier de données n-gram à partir du fichier ids
SYNOPSIS
ids2ngram [option] ... fichier_ids
DESCRIPTION
ids2ngram génère un fichier idngram, qui est un tableau trié [id1,..,idN,freq], à partir de binaire
fichiers de flux d'id. Ici, les fichiers id stream sont toujours générés par mmseg or slmseg.
Fondamentalement, il trouve toutes les occurrences de tuples de n mots (c'est-à-dire le tuple de (id1,..,idN)), et
trie ces tuples selon l'ordre lexicographique des identifiants qui composent les tuples, puis écris
dans le fichier de sortie spécifié.
CONTRIBUTION
Le fichier d'entrée est présenté sous la forme d'un flux d'identifiants binaires, qui ressemble à :
[id0,...,idX]
OPTIONS
Toutes les options suivantes sont obligatoires.
-n,--NMax N
Génère N-gramme résultat. ids2ngram ne prend en charge que l'uni-gramme, le bi-gramme et le trigramme,
donc tout nombre qui n'est pas dans la plage de 1..3 n'est pas valide.
-s,--échanger fichier d'échange
Spécifiez le fichier intermédiaire temporaire.
-o, --dehors fichier de sortie
Spécifiez le fichier idngram de résultat, par exemple le tableau de [id1, ..., idN, freq]
-p, --para N
Spécifiez le nombre maximal d'éléments en n-grammes par paragraphe. ids2ngram écrit dans le fichier temporaire
par paragraphe. Chaque fois qu'il écrit un paragraphe, il libère le
mémoire correspondante qui lui est allouée. Lorsque votre système informatique le permet, un N
est suggéré. Cela peut accélérer la vitesse de traitement en raison de moins d'E/S.
EXEMPLE
L'exemple suivant utilisera trois fichiers d'entrée idstream idsfile[1,2,3] pour générer le
fichier idngram all.id3gram. Chaque paramètre (taille de carte interne ou taille de hachage) serait 1024000,
en utilisant le fichier d'échange pour le résultat temporaire. Tous les résultats para temporaires seraient finalement fusionnés pour obtenir
le résultat final.
ids2ngram -n 3 -s /tmp/échange -o all.id3gram -p 1024000 fichier id1 fichier id2 fichier id3
Utilisez ids2ngram en ligne en utilisant les services onworks.net