Este é o comando ids2ngram que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
ids2ngram - gera arquivo de dados n-gram a partir do arquivo ids
SINOPSE
ids2ngram [opção] ... arquivo_ids...
DESCRIÇÃO
ids2ngram gera o arquivo idngram, que é uma matriz classificada [id1, .., idN, freq], do binário
arquivos de fluxo de id. Aqui, os arquivos de fluxo de id são sempre gerados por mmseg or slmseg.
Basicamente, ele encontra todas as ocorrências de tuplas de n palavras (ou seja, a tupla de (id1, .., idN)), e
classifica essas tuplas pela ordem lexicográfica dos ids que formam as tuplas e, em seguida, escreve
eles para o arquivo de saída especificado.
INPUT
O arquivo de entrada é apresentado como um fluxo de id binário, que se parece com:
[id0, ..., idX]
OPÇÕES
Todas as opções a seguir são obrigatórias.
-n,--NMax N
gera N-grama resultado. ids2ngram suporta apenas uni-grama, bi-grama e trigrama,
portanto, qualquer número que não esteja no intervalo de 1..3 não é válido.
-s,--troca arquivo de troca
Especifique o arquivo intermediário temporário.
-o, --Fora arquivo de saída
Especifique o arquivo idngram de resultado, por exemplo, a matriz de [id1, ..., idN, freq]
-p, --pára N
Especifique o máximo de itens de n gramas por parágrafo. ids2ngram grava no arquivo temporário
em uma base por parágrafo. Cada vez que escreve um parágrafo, ele libera o
memória correspondente alocada para ele. Quando o seu sistema de computador permite, um superior N
é sugerido. Isso pode acelerar a velocidade de processamento por causa de menos E / S.
EXEMPLO
O exemplo a seguir usará três arquivos de entrada idstream idsfile [1,2,3] para gerar o
arquivo idngram all.id3gram. Cada para (tamanho do mapa interno ou tamanho do hash) seria 1024000,
usando o arquivo de troca para o resultado temporário. Todos os resultados de parâmetros temporários seriam eventualmente mesclados para obter
o resultado final.
ids2ngram -n 3 -s / tmp / swap -o tudo.id3gram -p 1024000 arquivoid1 arquivoid2 arquivoid3
Use ids2ngram online usando serviços onworks.net