datamash - On-line na nuvem

Este é o comando datamash que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

PROGRAMA:

NOME


datamash - cálculos de linha de comando

SINOPSE


mistura de dados [OPÇÃO] op [col] [op col ...]

DESCRIÇÃO


Executa operações numéricas / string na entrada de stdin.

'op' é a operação a ser executada; Para agrupamento, operações por linha 'col' é a entrada
campo a ser usado; 'col' pode ser um número (1 = primeiro campo) ou um nome de coluna ao usar -H or
--header-in opções.

Envie o operações:
transpor, inverter

Filtro de linha operações:
rmdup

Por linha operações:
base64, debase64, md5, sha1, sha256, sha512

Numérico Agrupamento operações:
soma, min, max, absmin, absmax

Textual / Numérico Agrupamento operações:
contar, primeiro, último, rand, único, colapso, contagem única

Estatístico Agrupamento operações:
média, mediana, q1, q3, iqr, modo, antimodo, pstdev, sstdev, pvar svar, mad, madraw,
pskew, sskew, pkurt, skurt, dpo, jarque

OPÇÕES


Agrupamento opções:
-f, --cheio
imprime toda a linha de entrada antes dos resultados operacionais (padrão: imprime apenas as chaves agrupadas)

-g, --grupo=X[, Y, Z]
grupo por meio dos campos X, [Y, Z]

--header-in
a primeira linha de entrada são os cabeçalhos das colunas

--header-out
imprimir cabeçalhos de coluna como primeira linha

-H, --cabeçalhos
o mesmo que '--header-in --header-out'

-i, --ignorar caso
ignorar maiúsculas / minúsculas ao comparar texto; isso afeta o agrupamento e string
operações

-s, --ordenar
classificar a entrada antes de agrupar; isso elimina a necessidade de canalizar manualmente a entrada
através de 'classificar'

Envie o Divisão de opções:
--não-estrito
permitir linhas com número variável de campos

--preenchimento=X
preencha os valores ausentes com X (padrão% s)

Geral opções:
-t, --separador de campo=X
use X em vez de TAB como delimitador de campo

--narm pular valores NA / NaN

-W, --espaço em branco
use espaços em branco (um ou mais espaços e / ou tabulações) para delimitadores de campo

-z, - terminado em zero
linhas finais com 0 byte, não nova linha

--Socorro exibir esta ajuda e sai

--versão
informações de saída da versão e sai

DISPONÍVEL OPERAÇÕES


Envie o operações:
transpor transpor linhas, colunas do arquivo de entrada

reverso ordem inversa dos campos em cada linha

Filtro de linha operações:
rmdup remover linhas com valor-chave duplicado

Por linha operações:
base64 Codifique o campo como base64

rebaixar64 Decodifique o campo como base64, saia com erro se a string base64 for inválida

md5 / sha1 / sha256 / sha512
Calcule o hash md5 / sha1 / sha256 / sha512 do valor do campo

reverso ordem inversa dos campos em cada linha

Numérico Agrupamento operações
soma somar os valores

minutos valor mínimo

max valor máximo

absminuição mínimo dos valores absolutos

absmax máximo dos valores absolutos

Textual / Numérico Agrupamento operações
contar conte o número de elementos no grupo

primeiro o primeiro valor do grupo

último o último valor do grupo

rand um valor aleatório do grupo

único lista classificada separada por vírgulas de valores únicos

colapso lista separada por vírgulas de todos os valores de entrada

conde número de valores únicos / distintos

Estatístico Agrupamento operações
significar média dos valores

mediana valor mediano

q1 Valor do primeiro quartil

q3 Valor do 3º quartil

QIQ intervalo interquartil

modo valor do modo (valor mais comum)

antimodo valor anti-modo (menor valor comum)

pstdev desvio padrão da população

sstdev desvio padrão da amostra

pvar variação populacional

responder variância da amostra

louco desvio absoluto mediano, escalado pela constante 1.4826 para distribuições normais

madrasta desvio médio absoluto, fora de escala

torcer distorção do grupo (amostra)

pskew distorção do grupo (população)
valores x reportados pelas operações 'sskew' e 'pskew':
x> 0 - inclinado positivamente / inclinado para a direita
0> x - inclinado negativamente / inclinado para a esquerda
x> 1 - altamente inclinado para a direita
1> x> 0.5 - moderadamente inclinado para a direita
0.5> x> -0.5 - aproximadamente simétrico
-0.5> x> -1 - moderadamente inclinado para a esquerda
-1> x - altamente enviesado para a esquerda

arremesso excesso de curtose do grupo (amostra)

pkurt excesso de curtose do grupo (da população)

jarro valor p do teste Jarque-Beta para normalidade

dpo valor de p do teste D'Agostino-Pearson Omnibus para normalidade;
para operações 'jarque' e 'dpo':
hipótese nula é normalidade;
Valores de p baixos indicam dados não normais;
Valores de p altos indicam que a hipótese nula não pode ser rejeitada.

EXEMPLOS


Imprima a soma e a média dos valores da coluna 1:

$ sequência 10 | mistura de dados soma 1 significa 1
55 5.5

Entrada de grupo com base no campo 1 e valores de soma (por grupo) no campo 2:

$ cat exemplo.txt
A 10
A 5
B 9
B 11
$ mistura de dados -g 1 soma 2 <exemplo.txt
A 15
B 20

A entrada não classificada deve ser classificada (com '-s'):

$ cat exemplo.txt
A 10
C 4
B 9
C 1
A 5
B 11
$ mistura de dados -s -g1 soma 2 <exemplo.txt
A 15
B 20
C 5

O que é equivalente a:

$ cat exemplo.txt | ordenar -k1,1 | mistura de dados -g 1 soma 2

Use -h (- cabeçalhos) se o arquivo de entrada tiver uma linha de cabeçalho:

# Dado um arquivo com o nome do aluno, campo, pontuação do teste ...
$ cabeça -n5 pontuações_h.txt
Nome da pontuação principal
Shawn Engenharia 47
Caleb Negócios 87
Negócios Cristãos 88
Derek Artes 60

# Calcule a média e o desvio padrão para cada principal
$ mistura de dados --sort --headers --grupo 2 significa 3 pstdev 3 <scores_h.txt
(ou use a forma abreviada)
$ mistura de dados -sH -g2 significa 3 pstdev 3 <scores_h.txt
(ou use colunas nomeadas)
$ mistura de dados -sH -g Pontuação média principal pstdev Pontuação <scores_h.txt
GroupBy (principal) média (pontuação) pstdev (pontuação)
Artes 68.9 10.1
Negócios 87.3 4.9
Engenharia 66.5 19.1
Saúde-Medicina 90.6 8.8
Ciências da Vida 55.3 19.7
Ciências Sociais 60.2 16.6

Ordem inversa dos campos em cada linha:

$ seq 6 | colar - - | mistura de dados reverso
2 1
4 3
6 5

Transpor linhas, colunas:

$ seq 6 | colar - - | mistura de dados transpor
1 3 5
2 4 6

Remova as linhas com valor-chave duplicado da coluna 1 (ao contrário primeiro,último operações rmdup
é muito mais rápido e não requer a classificação do arquivo com -s):

# Dada uma lista de arquivos e IDs de amostra:
$ cat ENTRADA
Arquivo SampleID
2 cc.txt
3dd.txt
1ab.txt
2 ee.txt
3ss.txt

# Remova as linhas com ID de amostra duplicado (coluna 1):
$ mistura de dados rmdup 1 <INPUT
(ou usou coluna nomeada)
$ mistura de dados -H rmdup SampleID <INPUT
Arquivo SampleID
2 cc.txt
3dd.txt
1ab.txt

Calcule o valor hash sha1 de cada arquivo TXT, após calcular o valor sha1 de cada
conteúdo do arquivo:

$ sha1sum * .txt | datamash -Wf sha1 2

ADICIONAL INFORMAÇÃO


Veja o site GNU Datamash (http://www.gnu.org/software/datamash)

Use datamash online usando serviços onworks.net



Programas online mais recentes para Linux e Windows