Questo è il comando datamash che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
datamash - calcoli da riga di comando
SINOSSI
mash di dati [OPZIONE] op [col] [op col ...]
DESCRIZIONE
Esegue operazioni numeriche/stringhe sull'input da stdin.
'op' è l'operazione da eseguire; Per il raggruppamento, le operazioni per riga 'col' è l'input
campo da utilizzare; 'col' può essere un numero (1=primo campo) o un nome di colonna quando si utilizza -H or
--intestazione in ingresso opzioni.
Compila il operazioni:
trasporre, invertire
Filtraggio di linea operazioni:
rmdup
Per linea operazioni:
base64, debase64, md5, sha1, sha256, sha512
Numerico Raggruppamento operazioni:
somma, min, max, absmin, absmax
Testuale/numerico Raggruppamento operazioni:
contare, primo, ultimo, rand, unico, collasso, countunique
Statistico Raggruppamento operazioni:
significare, mediana, q1, q3, iqr, mode, antimode, pstdev, sstdev, pvar svar, mad, madraw,
pskew, sskew, pkurt, skurt, dpo, jarque
VERSIONI
Raggruppamento Opzioni:
-f, --completo
stampa l'intera riga di input prima dei risultati dell'operazione (predefinito: stampa solo le chiavi raggruppate)
-g, --gruppo=X[,Y,Z]
raggruppare tramite i campi X,[Y,Z]
--intestazione in ingresso
la prima riga di input sono le intestazioni di colonna
--intestazione in uscita
stampa le intestazioni di colonna come prima riga
-H, --header
uguale a '--header-in --intestazione in uscita'
-i, --ignora-caso
ignora le maiuscole/minuscole quando si confronta il testo; questo influenza il raggruppamento e la stringa
operazioni
-s, --ordinare
ordinare l'input prima del raggruppamento; questo elimina la necessità di convogliare manualmente l'input
attraverso 'ordinamento'
Compila il Funzionamento Opzioni:
--no-rigoroso
consenti righe con un numero variabile di campi
--riempitivo=X
riempi i valori mancanti con X (predefinito %s)
Generale Opzioni:
-t, --separatore di campo=X
usa X invece di TAB come delimitatore di campo
--narm salta i valori NA/NaN
-W, --spazio bianco
usa gli spazi bianchi (uno o più spazi e/o tab) per i delimitatori di campo
-z, --zero-terminato
fine righe con 0 byte, non newline
--Aiuto mostra questo aiuto ed esce
--versione
mostra informazioni sulla versione ed esce
DISPONIBILE OPERAZIONI
Compila il operazioni:
trasporre trasporre righe, colonne del file di input
invertire inverti l'ordine dei campi in ogni riga
Filtraggio di linea operazioni:
rmdup rimuovi le righe con il valore chiave duplicato
Per linea operazioni:
base64 Codifica il campo come base64
svilire64 Decodifica il campo come base64, esci con errore se stringa base64 non valida
md5/sha1/sha256/sha512
Calcola md5/sha1/sha256/sha512 hash del valore del campo
invertire inverti l'ordine dei campi in ogni riga
Numerico Raggruppamento operazioni
somma somma dei valori
verbale valore minimo
max valore massimo
asmin minimo dei valori assoluti
absmax massimo dei valori assoluti
Testuale/numerico Raggruppamento operazioni
contare contare il numero di elementi nel gruppo
prima di tutto il primo valore del gruppo
ultimo l'ultimo valore del gruppo
rand un valore casuale dal gruppo
unico elenco ordinato separato da virgole di valori univoci
crollo elenco separato da virgole di tutti i valori di input
unico numero di valori univoci/distinti
Statistico Raggruppamento operazioni
significare media dei valori
mediano valore medio
q1 Valore del 1° quartile
q3 Valore del 3° quartile
qr intervallo interquartile
modo valore della modalità (valore più comune)
antimodo valore anti-mode (valore minimo comune)
pstdev deviazione standard della popolazione
sstdev deviazione standard del campione
pvar varianza della popolazione
Rispondere varianza di campionamento
pazzo deviazione assoluta mediana, scalata dalla costante 1.4826 per le distribuzioni normali
madraw deviazione media assoluta, non graduata
inclinare asimmetria del gruppo (campione)
skew asimmetria del gruppo (popolazione)
valori x riportati dalle operazioni 'sskew' e 'pskew':
x > 0 - inclinato positivamente / inclinato a destra
0 > x - inclinato negativamente / inclinato a sinistra
x > 1 - molto inclinato a destra
1 > x > 0.5 - moderatamente inclinato a destra
0.5 > x > -0.5 - approssimativamente simmetrico
-0.5 > x > -1 - moderatamente inclinato a sinistra
-1 > x - molto inclinato a sinistra
skurta eccesso di curtosi del gruppo (campione)
pkurt eccesso di Kurtosi del gruppo (popolazione)
Jarque p-value del test di Jarque-Beta per la normalità
DPO p-value del test D'Agostino-Pearson Omnibus per la normalità;
per le operazioni 'jarque' e 'dpo':
l'ipotesi nulla è la normalità;
valori di p bassi indicano dati non normali;
valori p elevati indicano che l'ipotesi nulla non può essere respinta.
ESEMPI
Stampa la somma e la media dei valori dalla colonna 1:
$ seq 10 | mash di dati somma 1 media 1
55/5.5
Input di gruppo basato sul campo 1 e somma dei valori (per gruppo) sul campo 2:
$ cat esempio.txt
A 10
A 5
B 9
B 11
$ mash di dati -g 1 somma 2 < esempio.txt
A 15
B 20
L'input non ordinato deve essere ordinato (con '-s'):
$ cat esempio.txt
A 10
C 4
B 9
C 1
A 5
B 11
$ mash di dati -s -g1 somma 2 < esempio.txt
A 15
B 20
C 5
Che equivale a:
$ cat esempio.txt | sort -k1,1 | mash di dati -g 1 somma 2
Usa il -h (--intestazioni) se il file di input ha una riga di intestazione:
# Dato un file con il nome dello studente, il campo, il punteggio del test...
$ testa -n5 punteggi_h.txt
Nome Punteggio maggiore
Shawn Ingegneria 47
Caleb Affari 87
Affari Cristiani 88
Derek Arti 60
# Calcola la media e la deviana standard per ogni maggiore
$ mash di dati --sort --headers --group 2 significa 3 pstdev 3 < scores_h.txt
(o usa la forma abbreviata)
$ mash di dati -sH -g2 significa 3 pstdev 3 < scores_h.txt
(o usa colonne con nome)
$ mash di dati -sH -g Media maggiore Punteggio pstdev Punteggio < scores_h.txt
Raggruppa per (maggiore) media (punteggio) pstdev (punteggio)
Arti 68.9 10.1
Affari 87.3 4.9
Ingegneria 66.5 19.1
Salute-Medicina 90.6 8.8
Scienze della vita 55.3 19.7
Scienze sociali 60.2 16.6
Inverti l'ordine dei campi in ogni riga:
$ seq 6 | pasta - - | mash di dati invertire
2/1
4/3
6/5
Trasponi righe, colonne:
$ seq 6 | pasta - - | mash di dati trasporre
1 3 5
2 4 6
Rimuovi le righe con il valore chiave duplicato dalla colonna 1 (diversamente da prima di tutto,ultimo operazioni, rmdup
è molto più veloce e non richiede l'ordinamento del file con -s):
# Dato un elenco di file e ID di esempio:
$ cat INGRESSO
File IDcampione
2 cc.txt
3 gg.txt
1 ab.txt
2ee.txt
3 sgg.txt
# Rimuovi le righe con ID campione duplicato (colonna 1):
$ mash di dati rmdup 1 < INGRESSO
(o colonna con nome usata)
$ mash di dati -H rmdup SampleID < INPUT
File IDcampione
2 cc.txt
3 gg.txt
1 ab.txt
Calcola il valore hash sha1 di ogni file TXT, dopo aver calcolato il valore sha1 di ciascuno
contenuto del file:
$ sha1sum *.txt | datamash -Wf sha1 2
SUPPLEMENTARI INFORMAZIONI
Vedere il sito Web GNU Datamash (http://www.gnu.org/software/datamash)
Usa datamash online utilizzando i servizi onworks.net