Este é o comando datamash que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
datamash - cálculos de linha de comando
SINOPSE
mistura de dados [OPÇÃO] op [col] [op col ...]
DESCRIÇÃO
Executa operações numéricas / string na entrada de stdin.
'op' é a operação a ser executada; Para agrupamento, operações por linha 'col' é a entrada
campo a ser usado; 'col' pode ser um número (1 = primeiro campo) ou um nome de coluna ao usar -H or
--header-in opções.
Envie o operações:
transpor, inverter
Filtro de linha operações:
rmdup
Por linha operações:
base64, debase64, md5, sha1, sha256, sha512
Numérico Agrupamento operações:
soma, min, max, absmin, absmax
Textual / Numérico Agrupamento operações:
contar, primeiro, último, rand, único, colapso, contagem única
Estatístico Agrupamento operações:
média, mediana, q1, q3, iqr, modo, antimodo, pstdev, sstdev, pvar svar, mad, madraw,
pskew, sskew, pkurt, skurt, dpo, jarque
OPÇÕES
Agrupamento opções:
-f, --cheio
imprime toda a linha de entrada antes dos resultados operacionais (padrão: imprime apenas as chaves agrupadas)
-g, --grupo=X[, Y, Z]
grupo por meio dos campos X, [Y, Z]
--header-in
a primeira linha de entrada são os cabeçalhos das colunas
--header-out
imprimir cabeçalhos de coluna como primeira linha
-H, --cabeçalhos
o mesmo que '--header-in --header-out'
-i, --ignorar caso
ignorar maiúsculas / minúsculas ao comparar texto; isso afeta o agrupamento e string
operações
-s, --ordenar
classificar a entrada antes de agrupar; isso elimina a necessidade de canalizar manualmente a entrada
através de 'classificar'
Envie o Divisão de opções:
--não-estrito
permitir linhas com número variável de campos
--preenchimento=X
preencha os valores ausentes com X (padrão% s)
Geral opções:
-t, --separador de campo=X
use X em vez de TAB como delimitador de campo
--narm pular valores NA / NaN
-W, --espaço em branco
use espaços em branco (um ou mais espaços e / ou tabulações) para delimitadores de campo
-z, - terminado em zero
linhas finais com 0 byte, não nova linha
--Socorro exibir esta ajuda e sai
--versão
informações de saída da versão e sai
DISPONÍVEL OPERAÇÕES
Envie o operações:
transpor transpor linhas, colunas do arquivo de entrada
reverso ordem inversa dos campos em cada linha
Filtro de linha operações:
rmdup remover linhas com valor-chave duplicado
Por linha operações:
base64 Codifique o campo como base64
rebaixar64 Decodifique o campo como base64, saia com erro se a string base64 for inválida
md5 / sha1 / sha256 / sha512
Calcule o hash md5 / sha1 / sha256 / sha512 do valor do campo
reverso ordem inversa dos campos em cada linha
Numérico Agrupamento operações
soma somar os valores
minutos valor mínimo
max valor máximo
absminuição mínimo dos valores absolutos
absmax máximo dos valores absolutos
Textual / Numérico Agrupamento operações
contar conte o número de elementos no grupo
primeiro o primeiro valor do grupo
último o último valor do grupo
rand um valor aleatório do grupo
único lista classificada separada por vírgulas de valores únicos
colapso lista separada por vírgulas de todos os valores de entrada
conde número de valores únicos / distintos
Estatístico Agrupamento operações
significar média dos valores
mediana valor mediano
q1 Valor do primeiro quartil
q3 Valor do 3º quartil
QIQ intervalo interquartil
modo valor do modo (valor mais comum)
antimodo valor anti-modo (menor valor comum)
pstdev desvio padrão da população
sstdev desvio padrão da amostra
pvar variação populacional
responder variância da amostra
louco desvio absoluto mediano, escalado pela constante 1.4826 para distribuições normais
madrasta desvio médio absoluto, fora de escala
torcer distorção do grupo (amostra)
pskew distorção do grupo (população)
valores x reportados pelas operações 'sskew' e 'pskew':
x> 0 - inclinado positivamente / inclinado para a direita
0> x - inclinado negativamente / inclinado para a esquerda
x> 1 - altamente inclinado para a direita
1> x> 0.5 - moderadamente inclinado para a direita
0.5> x> -0.5 - aproximadamente simétrico
-0.5> x> -1 - moderadamente inclinado para a esquerda
-1> x - altamente enviesado para a esquerda
arremesso excesso de curtose do grupo (amostra)
pkurt excesso de curtose do grupo (da população)
jarro valor p do teste Jarque-Beta para normalidade
dpo valor de p do teste D'Agostino-Pearson Omnibus para normalidade;
para operações 'jarque' e 'dpo':
hipótese nula é normalidade;
Valores de p baixos indicam dados não normais;
Valores de p altos indicam que a hipótese nula não pode ser rejeitada.
EXEMPLOS
Imprima a soma e a média dos valores da coluna 1:
$ sequência 10 | mistura de dados soma 1 significa 1
55 5.5
Entrada de grupo com base no campo 1 e valores de soma (por grupo) no campo 2:
$ cat exemplo.txt
A 10
A 5
B 9
B 11
$ mistura de dados -g 1 soma 2 <exemplo.txt
A 15
B 20
A entrada não classificada deve ser classificada (com '-s'):
$ cat exemplo.txt
A 10
C 4
B 9
C 1
A 5
B 11
$ mistura de dados -s -g1 soma 2 <exemplo.txt
A 15
B 20
C 5
O que é equivalente a:
$ cat exemplo.txt | ordenar -k1,1 | mistura de dados -g 1 soma 2
Use -h (- cabeçalhos) se o arquivo de entrada tiver uma linha de cabeçalho:
# Dado um arquivo com o nome do aluno, campo, pontuação do teste ...
$ cabeça -n5 pontuações_h.txt
Nome da pontuação principal
Shawn Engenharia 47
Caleb Negócios 87
Negócios Cristãos 88
Derek Artes 60
# Calcule a média e o desvio padrão para cada principal
$ mistura de dados --sort --headers --grupo 2 significa 3 pstdev 3 <scores_h.txt
(ou use a forma abreviada)
$ mistura de dados -sH -g2 significa 3 pstdev 3 <scores_h.txt
(ou use colunas nomeadas)
$ mistura de dados -sH -g Pontuação média principal pstdev Pontuação <scores_h.txt
GroupBy (principal) média (pontuação) pstdev (pontuação)
Artes 68.9 10.1
Negócios 87.3 4.9
Engenharia 66.5 19.1
Saúde-Medicina 90.6 8.8
Ciências da Vida 55.3 19.7
Ciências Sociais 60.2 16.6
Ordem inversa dos campos em cada linha:
$ seq 6 | colar - - | mistura de dados reverso
2 1
4 3
6 5
Transpor linhas, colunas:
$ seq 6 | colar - - | mistura de dados transpor
1 3 5
2 4 6
Remova as linhas com valor-chave duplicado da coluna 1 (ao contrário primeiro,último operações rmdup
é muito mais rápido e não requer a classificação do arquivo com -s):
# Dada uma lista de arquivos e IDs de amostra:
$ cat ENTRADA
Arquivo SampleID
2 cc.txt
3dd.txt
1ab.txt
2 ee.txt
3ss.txt
# Remova as linhas com ID de amostra duplicado (coluna 1):
$ mistura de dados rmdup 1 <INPUT
(ou usou coluna nomeada)
$ mistura de dados -H rmdup SampleID <INPUT
Arquivo SampleID
2 cc.txt
3dd.txt
1ab.txt
Calcule o valor hash sha1 de cada arquivo TXT, após calcular o valor sha1 de cada
conteúdo do arquivo:
$ sha1sum * .txt | datamash -Wf sha1 2
ADICIONAL INFORMAÇÃO
Veja o site GNU Datamash (http://www.gnu.org/software/datamash)
Use datamash online usando serviços onworks.net