InglêsFrancêsEspanhol

Ad


favicon do OnWorks

ids2ngram - Online na nuvem

Execute ids2ngram no provedor de hospedagem gratuita OnWorks no Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

Este é o comando ids2ngram que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

PROGRAMA:

NOME


ids2ngram - gera arquivo de dados n-gram a partir do arquivo ids

SINOPSE


ids2ngram [opção] ... arquivo_ids...

DESCRIÇÃO


ids2ngram gera o arquivo idngram, que é uma matriz classificada [id1, .., idN, freq], do binário
arquivos de fluxo de id. Aqui, os arquivos de fluxo de id são sempre gerados por mmseg or slmseg.
Basicamente, ele encontra todas as ocorrências de tuplas de n palavras (ou seja, a tupla de (id1, .., idN)), e
classifica essas tuplas pela ordem lexicográfica dos ids que formam as tuplas e, em seguida, escreve
eles para o arquivo de saída especificado.

INPUT


O arquivo de entrada é apresentado como um fluxo de id binário, que se parece com:
[id0, ..., idX]

OPÇÕES


Todas as opções a seguir são obrigatórias.

-n,--NMax N
gera N-grama resultado. ids2ngram suporta apenas uni-grama, bi-grama e trigrama,
portanto, qualquer número que não esteja no intervalo de 1..3 não é válido.

-s,--troca arquivo de troca
Especifique o arquivo intermediário temporário.

-o, --Fora arquivo de saída
Especifique o arquivo idngram de resultado, por exemplo, a matriz de [id1, ..., idN, freq]

-p, --pára N
Especifique o máximo de itens de n gramas por parágrafo. ids2ngram grava no arquivo temporário
em uma base por parágrafo. Cada vez que escreve um parágrafo, ele libera o
memória correspondente alocada para ele. Quando o seu sistema de computador permite, um superior N
é sugerido. Isso pode acelerar a velocidade de processamento por causa de menos E / S.

EXEMPLO


O exemplo a seguir usará três arquivos de entrada idstream idsfile [1,2,3] para gerar o
arquivo idngram all.id3gram. Cada para (tamanho do mapa interno ou tamanho do hash) seria 1024000,
usando o arquivo de troca para o resultado temporário. Todos os resultados de parâmetros temporários seriam eventualmente mesclados para obter
o resultado final.

ids2ngram -n 3 -s / tmp / swap -o tudo.id3gram -p 1024000 arquivoid1 arquivoid2 arquivoid3

Use ids2ngram online usando serviços onworks.net


Servidores e estações de trabalho gratuitos

Baixar aplicativos Windows e Linux

Comandos Linux

Ad